Формула доверительный интервал всех значений. Доверительный интервал

Построим в MS EXCEL доверительный интервал для оценки среднего значения распределения в случае известного значения дисперсии.

Разумеется, выбор уровня доверия полностью зависит от решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.

Формулировка задачи

Предположим, что из генеральной совокупности имеющей взята выборка размера n. Предполагается, что стандартное отклонение этого распределения известно. Необходимо на основании этой выборки оценить неизвестное среднее значение распределения (μ, ) и построить соответствующий двухсторонний доверительный интервал .

Точечная оценка

Как известно из , статистика (обозначим ее Х ср ) является несмещенной оценкой среднего этой генеральной совокупности и имеет распределение N(μ;σ 2 /n).

Примечание : Что делать, если требуется построить доверительный интервал в случае распределения, которое не является нормальным? В этом случае на помощь приходит , которая гласит, что при достаточно большом размере выборки n из распределения не являющемся нормальным , выборочное распределение статистики Х ср будет приблизительно соответствовать нормальному распределению с параметрами N(μ;σ 2 /n).

Итак, точечная оценка среднего значения распределения у нас есть – это среднее значение выборки , т.е. Х ср . Теперь займемся доверительным интервалом.

Построение доверительного интервала

Обычно, зная распределение и его параметры, мы можем вычислить вероятность того, что случайная величина примет значение из заданного нами интервала. Сейчас поступим наоборот: найдем интервал, в который случайная величина попадет с заданной вероятностью. Например, из свойств нормального распределения известно, что с вероятностью 95%, случайная величина, распределенная по нормальному закону , попадет в интервал примерно +/- 2 от среднего значения (см. статью про ). Этот интервал, послужит нам прототипом для доверительного интервала .

Теперь разберемся,знаем ли мы распределение, чтобы вычислить этот интервал? Для ответа на вопрос мы должны указать форму распределения и его параметры.

Форму распределения мы знаем – это нормальное распределение (напомним, что речь идет о выборочном распределении статистики Х ср ).

Параметр μ нам неизвестен (его как раз нужно оценить с помощью доверительного интервала ), но у нас есть его оценка Х ср, вычисленная на основе выборки, которую можно использовать.

Второй параметр – стандартное отклонение выборочного среднего будем считать известным , он равен σ/√n.

Т.к. мы не знаем μ, то будем строить интервал +/- 2 стандартных отклонения не от среднего значения , а от известной его оценки Х ср . Т.е. при расчете доверительного интервала мы НЕ будем считать, что Х ср попадет в интервал +/- 2 стандартных отклонения от μ с вероятностью 95%, а будем считать, что интервал +/- 2 стандартных отклонения от Х ср с вероятностью 95% накроет μ – среднее генеральной совокупности, из которого взята выборка . Эти два утверждения эквивалентны, но второе утверждение нам позволяет построить доверительный интервал .

Кроме того, уточним интервал: случайная величина, распределенная по нормальному закону , с вероятностью 95% попадает в интервал +/- 1,960 стандартных отклонений, а не+/- 2 стандартных отклонения . Это можно рассчитать с помощью формулы =НОРМ.СТ.ОБР((1+0,95)/2) , см. файл примера Лист Интервал .

Теперь мы можем сформулировать вероятностное утверждение, которое послужит нам для формирования доверительного интервала :
«Вероятность того, что среднее генеральной совокупности находится от среднего выборки в пределах 1,960 «стандартных отклонений выборочного среднего» , равна 95%».

Значение вероятности, упомянутое в утверждении, имеет специальное название , который связан с уровнем значимости α (альфа) простым выражением уровень доверия =1 . В нашем случае уровень значимости α=1-0,95=0,05 .

Теперь на основе этого вероятностного утверждения запишем выражение для вычисления доверительного интервала :

где Z α/2 стандартного нормального распределения (такое значение случайной величины z , что P (z >=Z α/2 )=α/2 ).

Примечание : Верхний α/2-квантиль определяет ширину доверительного интервала в стандартных отклонениях выборочного среднего. Верхний α/2-квантиль стандартного нормального распределения всегда больше 0, что очень удобно.

В нашем случае при α=0,05, верхний α/2-квантиль равен 1,960. Для других уровней значимости α (10%; 1%) верхний α/2-квантиль Z α/2 можно вычислить с помощью формулы =НОРМ.СТ.ОБР(1-α/2) или, если известен уровень доверия , =НОРМ.СТ.ОБР((1+ур.доверия)/2) .

Обычно при построении доверительных интервалов для оценки среднего используют только верхний α /2-квантиль и не используют нижний α /2-квантиль . Это возможно потому, что стандартное нормальное распределение симметрично относительно оси х (плотность его распределения симметрична относительно среднего, т.е. 0 ). Поэтому, нет нужды вычислять нижний α/2-квантиль (его называют просто α/2-квантиль ), т.к. он равен верхнему α /2-квантилю со знаком минус.

Напомним, что, не смотря на форму распределения величины х, соответствующая случайная величина Х ср распределена приблизительно нормально N(μ;σ 2 /n) (см. статью про ). Следовательно, в общем случае, вышеуказанное выражение для доверительного интервала является лишь приближенным. Если величина х распределена по нормальному закону N(μ;σ 2 /n), то выражение для доверительного интервала является точным.

Расчет доверительного интервала в MS EXCEL

Решим задачу.
Время отклика электронного компонента на входной сигнал является важной характеристикой устройства. Инженер хочет построить доверительный интервал для среднего времени отклика при уровне доверия 95%. Из предыдущего опыта инженер знает, что стандартное отклонение время отклика составляет 8 мсек. Известно, что для оценки времени отклика инженер сделал 25 измерений, среднее значение составило 78 мсек.

Решение : Инженер хочет знать время отклика электронного устройства, но он понимает, что время отклика является не фиксированной, а случайной величиной, которая имеет свое распределение. Так что, лучшее, на что он может рассчитывать, это определить параметры и форму этого распределения.

К сожалению, из условия задачи форма распределения времени отклика нам не известна (оно не обязательно должно быть нормальным ). , этого распределения также неизвестно. Известно только его стандартное отклонение σ=8. Поэтому, пока мы не можем посчитать вероятности и построить доверительный интервал .

Однако, не смотря на то, что мы не знаем распределение времени отдельного отклика , мы знаем, что согласно ЦПТ , выборочное распределение среднего времени отклика является приблизительно нормальным (будем считать, что условия ЦПТ выполняются, т.к. размер выборки достаточно велик (n=25)).

Более того, среднее этого распределения равно среднему значению распределения единичного отклика, т.е. μ. А стандартное отклонение этого распределения (σ/√n) можно вычислить по формуле =8/КОРЕНЬ(25) .

Также известно, что инженером была получена точечная оценка параметра μ равная 78 мсек (Х ср). Поэтому, теперь мы можем вычислять вероятности, т.к. нам известна форма распределения (нормальное ) и его параметры (Х ср и σ/√n).

Инженер хочет знать математическое ожидание μ распределения времени отклика. Как было сказано выше, это μ равно математическому ожиданию выборочного распределения среднего времени отклика . Если мы воспользуемся нормальным распределением N(Х ср; σ/√n), то искомое μ будет находиться в интервале +/-2*σ/√n с вероятностью примерно 95%.

Уровень значимости равен 1-0,95=0,05.

Наконец, найдем левую и правую границу доверительного интервала .
Левая граница: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)= 74,864
Правая граница: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРЕНЬ(25)=81,136

Левая граница: =НОРМ.ОБР(0,05/2; 78; 8/КОРЕНЬ(25))
Правая граница: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРЕНЬ(25))

Ответ : доверительный интервал при уровне доверия 95% и σ =8 мсек равен 78+/-3,136 мсек.

В файле примера на листе Сигма известна создана форма для расчета и построения двухстороннего доверительного интервала для произвольных выборок с заданным σ и уровнем значимости .

Функция ДОВЕРИТ.НОРМ()

Если значения выборки находятся в диапазоне B20:B79 , а уровень значимости равен 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; СЧЁТ(B20:B79))
вернет левую границу доверительного интервала .

Эту же границу можно вычислить с помощью формулы:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРЕНЬ(СЧЁТ(B20:B79))

Примечание : Функция ДОВЕРИТ.НОРМ() появилась в MS EXCEL 2010. В более ранних версиях MS EXCEL использовалась функция ДОВЕРИТ() .

Из данной статьи вы узнаете:

    Что такое доверительный интервал ?

    В чем суть правила 3-х сигм ?

    Как можно применить эти знания на практике?

В наше время из-за переизбытка информации, связанного с большим ассортиментом товаров, направлений продаж, сотрудников, направлений деятельности и т.д., бывает трудно выделить главное , на что, в первую очередь, стоит обратить внимание и приложить усилия для управления. Определение доверительного интервала и анализ выхода за его границы фактических значений - методика, которая поможет вам выделить ситуации , влияющие на изменение тенденций. Вы сможете развивать позитивные факторы и снизить влияние негативных. Данная технология применяется во многих известных мировых компаниях.

Существуют так называемые "оповещения" , которые информируют руководителей о том, что очередное значение в определенном направлении вышло за доверительный интервал . Что это означает? Это сигнал, что произошло какое-то нестандартное событие, которое, возможно, изменит существующую тенденцию в данном направлении. Это сигнал к тому, чтобы разобраться в ситуации и понять, что на неё повлияло.

Например, рассмотрим несколько ситуаций. Мы рассчитали прогноз продаж с границами прогноза по 100 товарным позициям на 2011 год по месяцам и в марте фактические продажи:

  1. По «Подсолнечному маслу» пробили верхнюю границу прогноза и не попали в доверительный интервал.
  2. По «Сухим дрожжам» вышли за нижнюю границу прогноза.
  3. По «Овсяным Кашам» пробили верхнюю границу.

По остальным товарам фактические продажи оказались в рамках заданных границ прогноза. Т.е. их продажи оказались в рамках ожиданий. Итак, мы выделили 3 товара, которые вышли за границы, и начали разбираться, что же повлияло на выход за границы:

  1. По «Подсолнечному маслу» мы вошли в новую торговую сеть, которая дала нам дополнительный объем продаж, что привело к выходу за верхнюю границу. Для этого товара стоит пересчитать прогноз до конца года с учетом прогноза продаж в данную сеть.
  2. По «Сухим дрожжам» машина застряла на таможне, и образовался дефицит в рамках 5 дней, что повлияло на снижение продаж и выход за нижнюю границу. Возможно, стоит разобраться, что послужило причиной и постараться не повторять данную ситуацию.
  3. По «Овсяным Кашам» было запущено мероприятие по стимулированию сбыта, которое дало значительный прирост продаж и привело к выходу за границы прогноза.

Мы выделили 3 фактора, которые повлияли на выход за границы прогноза. В жизни их может быть гораздо больше.Для повышения точности прогнозирования и планирования факторы, которые приводят к тому, что фактические продажи могут выйти за границы прогноза, стоит выделить и строить прогнозы и планы по ним отдельно. А затем учитывать их влияние на основной прогноз продаж. Также можно регулярно оценивать влияние данных факторов и менять ситуацию к лучшему за счет уменьшения влияния негативных и увеличения влияния позитивных факторов .

С помощью доверительного интервала мы можем:

  1. Выделить направления , на которые стоит обратить внимание, т.к. в этих направлениях произошли события, которые могут повлиять на изменение тенденции .
  2. Определить факторы , которые реально влияют на изменение ситуации.
  3. Принять взвешенное решение (например, о закупках, при планировании и т.д.).

Теперь рассмотрим, что такое доверительный интервал и как его рассчитать в Excel на примере.

Что такое доверительный интервал?

Доверительный интервал – это границы прогноза (верхняя и нижняя), в рамки которых с заданной вероятностью (сигма) попадут фактические значения.

Т.е. мы рассчитываем прогноз - это наш основной ориентир, но мы понимаем, что фактические значения вряд ли на 100% будут равны нашему прогнозу. И возникает вопрос, в какие границы могут попасть фактические значения, если существующая тенденция сохранится ? И на этот вопрос нам поможет ответить расчет доверительного интервала , т.е. - верхней и нижней границы прогноза.

Что такое заданная вероятность сигма?

При расчете доверительного интервала мы можем задать вероятность попадания фактических значений в заданные границы прогноза . Как это сделать? Для этого мы задаем значение сигма и, если сигма будет равна:

    3 сигма - то, вероятность попадания очередного фактического значения в доверительный интервал составят 99,7%, или 300 к 1, или существует 0,3% вероятности выхода за границы.

    2 сигма - то, вероятность попадания очередного значения в границы составляет ≈ 95,5 %, т.е. шансы примерно 20 к 1, или существует 4,5% вероятности выхода за границы.

    1 сигма - то, вероятность ≈ 68,3%, т.е. шансы примерно 2 к 1, или существует 31,7% вероятность того, что очередное значение выйдет за пределы доверительного интервала.

Мы сформулировали правило 3 сигм, которое гласит, что вероятность попадания очередного случайного значения в доверительный интервал с заданным значением три сигма составляет 99.7% .

Великим русским математиком Чебышевым была доказана теорема о том, что существует 10% вероятность выхода за границы прогноза с заданным значением три сигма. Т.е. вероятность попадания в доверительный интервал 3 сигма составит минимум 90%, в то время как попытка рассчитать прогноз и его границы «на глазок» чревата куда более существенными ошибками.

Как самостоятельно рассчитать доверительный интервал в Excel?

Расчет доверительного интервала в Excel (т.е. верхней и нижней границы прогноза) рассмотрим на примере. У нас есть временной ряд - продажи по месяцам за 5 лет. См. Вложенный файл.

Для расчета границ прогноза рассчитаем:

  1. Прогноз продаж ().
  2. Сигма - среднеквадратическое отклонение модели прогноза от фактических значений.
  3. Три сигма.
  4. Доверительный интервал.

1. Прогноз продаж.

=(RC[-14](данные во временном ряду) - RC[-1](значение модели) )^2(в квадрате)


3. Просуммируем для каждого месяца значения отклонений из 8 этапа Сумма((Xi-Ximod)^2), т.е. просуммируем январи, феврали... для каждого года.

Для этого воспользуемся формулой =СУММЕСЛИ()

СУММЕСЛИ(массив с номерами периодов внутри цикла (для месяцев от 1 до 12);ссылка на номер периода в цикле; ссылка на массив с квадратами разницы исходных данных и значений периодов)


4. Рассчитаем среднеквадратическое отклонение для каждого периода в цикле от 1 до 12 (10 этапво вложенном файле ).

Для этого из значения рассчитанного на 9 этапе мы извлекаем корень и делим на количество периодов в этом цикле минус 1 = КОРЕНЬ((Сумма(Xi-Ximod)^2/(n-1))

Воспользуемся формулами в Excel =КОРЕНЬ(R8 (ссылка на (Сумма(Xi-Ximod)^2) /(СЧЁТЕСЛИ($O$8:$O$67 (ссылка на массив с номерами цикла) ; O8 (ссылка на конкретный номер цикла, которые считаем в массиве) )-1))

С помощью формулы Excel = СЧЁТЕСЛИ мы считаем количество n


Рассчитав среднеквадратическое отклонение фактических данных от модели прогноза, мы получили значение сигма для каждого месяца - этап 10 во вложенном файле .

3. Рассчитаем 3 сигма.

На 11 этапе задаем количество сигм - в нашем примере «3» (11 этапво вложенном файле ):

Также удобные для практики значения сигма:

1,64 сигма - 10% вероятность выхода за предел (1 шанс из 10);

1,96 сигма - 5% вероятность выхода за пределы (1 шанс из 20);

2,6 сигма - 1% вероятность выхода за пределы (1 шанс из 100).

5) Рассчитываем три сигма , для этого мы значения «сигма» для каждого месяца умножаем на «3».

3.Определяем доверительный интервал.

  1. Верхняя граница прогноза - прогноз продаж с учетом роста и сезонности + (плюс) 3 сигма;
  2. Нижняя граница прогноза - прогноз продаж с учетом роста и сезонности – (минус) 3 сигма;

Для удобства расчета доверительного интервала на длительный период (см. вложенный файл) воспользуемся формулой Excel =Y8+ВПР(W8;$U$8:$V$19;2;0) , где

Y8 - прогноз продаж;

W8 - номер месяца, для которого будем брать значение 3-х сигма;

Т.е. Верхняя граница прогноза = «прогноз продаж» + «3 сигма» (в примере, ВПР(номер месяца; таблица со значениями 3-х сигма; столбец, из которого извлекаем значение сигма равное номеру месяца в соответствующей строке;0)).

Нижняя граница прогноза = «прогноз продаж» минус «3 сигма».

Итак, мы рассчитали доверительный интервал в Excel.

Теперь у нас есть прогноз и диапазон с границами в пределах, которого с заданной вероятностью сигма попадут фактические значения.

В данной статье мы рассмотрели, что такое сигма и правило трёх сигм, как определить доверительный интервал и для чего вы можете использовать данную методику на практике.

Точных вам прогнозов и успехов!

Чем Forecast4AC PRO может вам помочь при расчете доверительного интервала ?:

    Forecast4AC PRO автоматически рассчитает верхнюю или нижнюю границы прогноза для более чем 1000 временных рядов одновременно;

    Возможность анализа границ прогноза в сравнении с прогнозом, трендом и фактическими продажами на графике одним нажатием клавиши;

В программе Forcast4AC PRO есть возможность задать значение сигма от 1 до 3.

Присоединяйтесь к нам!

Скачивайте бесплатные приложения для прогнозирования и бизнес-анализа :


  • Novo Forecast Lite - автоматический расчет прогноза в Excel .
  • 4analytics - ABC-XYZ-анализ и анализ выбросов в Excel.
  • Qlik Sense Desktop и QlikView Personal Edition - BI-системы для анализа и визуализации данных.

Тестируйте возможности платных решений:

  • Novo Forecast PRO - прогнозирование в Excel для больших массивов данных.

В предыдущих подразделах мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такая оценка называется «точечной». В ряде задач требуется не только найти для параметра а подходящее численное значение, но и оценить его точность и надежность. Требуется знать, к каким ошибкам может привести замена параметра а его точечной оценкой а и с какой степенью уверенности можно ожидать, что эти ошибки не выйдут за известные пределы?

Такого рода задачи особенно актуальны при малом числе наблюдений, когда точечная оценка а в значительной мере случайна и приближенная замена а на а может привести к серьезным ошибкам.

Чтобы дать представление о точности и надежности оценки а ,

в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.

Пусть для параметра а получена из опыта несмещенная оценка а. Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность р (например, р = 0,9, 0,95 или 0,99) такую, что событие с вероятностью р можно считать практически достоверным, и найдем такое значение s, для которого

Тогда диапазон практически возможных значений ошибки, возникающей при замене а на а , будет ± s; большие по абсолютной величине ошибки будут появляться только с малой вероятностью а = 1 - р. Перепишем (14.3.1) в виде:

Равенство (14.3.2) означает, что с вероятностью р неизвестное значение параметра а попадает в интервал

При этом необходимо отметить одно обстоятельство. Ранее мы неоднократно рассматривали вероятность попадания случайной величины в заданный неслучайный интервал. Здесь дело обстоит иначе: величина а не случайна, зато случаен интервал / р. Случайно его положение на оси абсцисс, определяемое его центром а ; случайна вообще и длина интервала 2s, так как величина s вычисляется, как правило, по опытным данным. Поэтому в данном случае лучше будет толковать величину р не как вероятность «попадания» точки а в интервал / р, а как вероятность того, что случайный интервал / р накроет точку а (рис. 14.3.1).

Рис. 14.3.1

Вероятность р принято называть доверительной вероятностью , а интервал / р - доверительным интервалом . Границы интервала If. а х =а- s и а 2 = а + а называются доверительными границами.

Дадим еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра а, совместимых с опытными данными и не противоречащих им. Действительно, если условиться считать событие с вероятностью а = 1-р практически невозможным, то те значения параметра а, для которых а - а > s, нужно признать противоречащими опытным данным, а те, для которых |а - а a t na 2 .

Пусть для параметра а имеется несмещенная оценка а. Если бы нам был известен закон распределения величины а , задача нахождения доверительного интервала была бы весьма проста: достаточно было бы найти такое значение s, для которого

Затруднение состоит в том, что закон распределения оценки а зависит от закона распределения величины X и, следовательно, от его неизвестных параметров (в частности, и от самого параметра а).

Чтобы обойти это затруднение, можно применить следующий грубо приближенный прием: заменить в выражении для s неизвестные параметры их точечными оценками. При сравнительно большом числе опытов п (порядка 20...30) этот прием обычно дает удовлетворительные по точности результаты.

В качестве примера рассмотрим задачу о доверительном интервале для математического ожидания.

Пусть произведено п X, характеристики которой - математическое ожидание т и дисперсия D - неизвестны. Для этих параметров получены оценки:

Требуется построить доверительный интервал / р, соответствующий доверительной вероятности р, для математического ожидания т величины X.

При решении этой задачи воспользуемся тем, что величина т представляет собой сумму п независимых одинаково распределенных случайных величин X h и согласно центральной предельной теореме при достаточно большом п ее закон распределения близок к нормальному. На практике даже при относительно небольшом числе слагаемых (порядка 10...20) закон распределения суммы можно приближенно считать нормальным. Будем исходить из того, что величина т распределена по нормальному закону. Характеристики этого закона - математическое ожидание и дисперсия - равны соответственно т и

(см. главу 13 подраздел 13.3). Предположим, что величина D нам известна и найдем такую величину Ер, для которой

Применяя формулу (6.3.5) главы 6, выразим вероятность в левой части (14.3.5) через нормальную функцию распределения

где - среднее квадратичное отклонение оценки т.

Из уравнения

находим значение Sp:

где arg Ф* (х) - функция, обратная Ф* (х), т.е. такое значение аргумента, при котором нормальная функция распределения равна х.

Дисперсия D, через которую выражена величина а 1П, нам в точности не известна; в качестве ее ориентировочного значения можно воспользоваться оценкой D (14.3.4) и положить приближенно:

Таким образом, приближенно решена задача построения доверительного интервала, который равен:

где gp определяется формулой (14.3.7).

Чтобы избежать при вычислении s p обратного интерполирования в таблицах функции Ф* (л), удобно составить специальную таблицу (табл. 14.3.1), где приводятся значения величины

в зависимости от р. Величина (р определяет для нормального закона число средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна р.

Через величину 7 р доверительный интервал выражается в виде:

Таблица 14.3.1

Пример 1. Проведено 20 опытов над величиной X; результаты приведены в табл. 14.3.2.

Таблица 14.3.2

Требуется найти оценку от для математического ожидания от величины X и построить доверительный интервал, соответствующий доверительной вероятности р = 0,8.

Решение. Имеем:

Выбрав за начало отсчета л: = 10, по третьей формуле (14.2.14) находим несмещенную оценку D :

По табл. 14.3,1 находим

Доверительные границы:

Доверительный интервал:

Значения параметра т, лежащие в этом интервале, являются совместимыми с опытными данными, приведенными в табл. 14.3.2.

Аналогичным способом может быть построен доверительный интервал и для дисперсии.

Пусть произведено п независимых опытов над случайной величиной X с неизвестными параметрами от и Л, и для дисперсии D получена несмещенная оценка:

Требуется приближенно построить доверительный интервал для дисперсии.

Из формулы (14.3.11) видно, что величина D представляет собой

сумму п случайных величин вида . Эти величины не являются

независимыми, так как в любую из них входит величина т, зависящая от всех остальных. Однако можно показать, что при увеличении п закон распределения их суммы тоже приближается к нормальному. Практически при п = 20...30 он уже может считаться нормальным.

Предположим, что это так, и найдем характеристики этого закона: математическое ожидание и дисперсию. Так как оценка D - несмещенная, то М[D] = D.

Вычисление дисперсии D D связано со сравнительно сложными выкладками, поэтому приведем ее выражение без вывода:

где ц 4 - четвертый центральный момент величины X.

Чтобы воспользоваться этим выражением, нужно подставить в него значения ц 4 и D (хотя бы приближенные). Вместо D можно воспользоваться его оценкой D . В принципе четвертый центральный момент тоже можно заменить его оценкой, например величиной вида:

но такая замена даст крайне невысокую точность, так как вообще при ограниченном числе опытов моменты высокого порядка определяются с большими ошибками. Однако на практике часто бывает, что вид закона распределения величины X известен заранее: неизвестны лишь его параметры. Тогда можно попытаться выразить ц 4 через D.

Возьмем наиболее часто встречающийся случай, когда величина X распределена по нормальному закону. Тогда ее четвертый центральный момент выражается через дисперсию (см. главу 6 подраздел 6.2);

и формула (14.3.12) дает или

Заменяя в (14.3.14) неизвестное D его оценкой D , получим: откуда

Момент ц 4 можно выразить через D также и в некоторых других случаях, когда распределение величины X не является нормальным, но вид его известен. Например, для закона равномерной плотности (см. главу 5) имеем:

где (а, Р) - интервал, на котором задан закон.

Следовательно,

По формуле (14.3.12) получим: откуда находим приближенно

В случаях, когда вид закона распределения величины 26 неизвестен, при ориентировочной оценке величины а /} рекомендуется все же пользоваться формулой (14.3.16), если нет специальных оснований считать, что этот закон сильно отличается от нормального (обладает заметным положительным или отрицательным эксцессом).

Если ориентировочное значение а /} тем или иным способом получено, то можно построить доверительный интервал для дисперсии аналогично тому, как мы строили его для математического ожидания:

где величина в зависимости от заданной вероятности р находится по табл. 14.3.1.

Пример 2. Найти приближенно 80%-й доверительный интервал для дисперсии случайной величины X в условиях примера 1, если известно, что величина X распределена по закону, близкому к нормальному.

Решение. Величина остается той же, что в табл. 14.3.1:

По формуле (14.3.16)

По формуле (14.3.18) находим доверительный интервал:

Соответствующий интервал значений среднего квадратичного отклонения: (0,21; 0,29).

14.4. Точные методы построения доверительных интервалов для параметров случайной величины, распределенной по нормальному закону

В предыдущем подразделе мы рассмотрели грубо приближенные методы построения доверительных интервалов для математического ожидания и дисперсии. Здесь мы дадим представление о точных методах решения той же задачи. Подчеркнем, что для точного нахождения доверительных интервалов совершенно необходимо знать заранее вид закона распределения величины X, тогда как для применения приближенных методов это не обязательно.

Идея точных методов построения доверительных интервалов сводится к следующему. Любой доверительный интервал находится из условия, выражающего вероятность выполнения некоторых неравенств, в которые входит интересующая нас оценка а. Закон распределения оценки а в общем случае зависит от неизвестных параметров величины X. Однако иногда удается перейти в неравенствах от случайной величины а к какой-либо другой функции наблюденных значений Х п Х 2 , ..., X п. закон распределения которой не зависит от неизвестных параметров, а зависит только от числа опытов и и от вида закона распределения величины X. Такого рода случайные величины играют большую роль в математической статистике; они наиболее подробно изучены для случая нормального распределения величины X.

Например, доказано, что при нормальном распределении величины X случайная величина

подчиняется так называемому закону распределения Стъюдента с п - 1 степенями свободы; плотность этого закона имеет вид

где Г (х) - известная гамма-функция:

Доказано также, что случайная величина

имеет «распределение % 2 » с п - 1 степенями свободы (см. главу 7), плотность которого выражается формулой

Не останавливаясь на выводах распределений (14.4.2) и (14.4.4), покажем, как их можно применить при построении доверительных интервалов для параметров ти D .

Пусть произведено п независимых опытов над случайной величиной X, распределенной по нормальному закону с неизвестными параметрами тиО. Для этих параметров получены оценки

Требуется построить доверительные интервалы для обоих параметров, соответствующие доверительной вероятности р.

Построим сначала доверительный интервал для математического ожидания. Естественно этот интервал взять симметричным относительно т ; обозначим s p половину длины интервала. Величину s p нужно выбрать так, чтобы выполнялось условие

Попытаемся перейти в левой части равенства (14.4.5) от случайной величины т к случайной величине Т, распределенной по закону Стьюдента. Для этого умножим обе части неравенства |m-w?|

на положительную величину: или, пользуясь обозначением (14.4.1),

Найдем такое число / р, что Величина / р найдется из условия

Из формулы (14.4.2) видно, что (1) - четная функция, поэтому (14.4.8) дает

Равенство (14.4.9) определяет величину / р в зависимости от р. Если иметь в своем распоряжении таблицу значений интеграла

то величину / р можно найти обратным интерполированием в таблице. Однако удобнее составить заранее таблицу значений / р. Такая таблица дается в приложении (табл. 5). В этой таблице приведены значения в зависимости от доверительной вероятности р и числа степеней свободы п - 1. Определив / р по табл. 5 и полагая

мы найдем половину ширины доверительного интервала / р и сам интервал

Пример 1. Произведено 5 независимых опытов над случайной величиной X, распределенной нормально с неизвестными параметрами т и о. Результаты опытов приведены в табл. 14.4.1.

Таблица 14.4.1

Найти оценку т для математического ожидания и построить для него 90%-й доверительный интервал / р (т.е. интервал, соответствующий доверительной вероятности р = 0,9).

Решение. Имеем:

По таблице 5 приложения для п - 1 = 4 и р = 0,9 находим откуда

Доверительный интервал будет

Пример 2. Для условий примера 1 подраздела 14.3, предполагая величину X распределенной нормально, найти точный доверительный интервал.

Решение. По таблице 5 приложения находим при п - 1 = 19ир =

0,8 / р =1,328; отсюда

Сравнивая с решением примера 1 подраздела 14.3 (е р = 0,072), убеждаемся, что расхождение весьма незначительно. Если сохранить точность до второго знака после запятой, то доверительные интервалы, найденные точным и приближенным методами, совпадают:

Перейдем к построению доверительного интервала для дисперсии. Рассмотрим несмещенную оценку дисперсии

и выразим случайную величину D через величину V (14.4.3), имеющую распределение х 2 (14.4.4):

Зная закон распределения величины V, можно найти интервал / (1 , в который она попадает с заданной вероятностью р.

Закон распределения k n _ x {v) величины I 7 имеет вид, изображенный на рис. 14.4.1.

Рис. 14.4.1

Возникает вопрос: как выбрать интервал / р? Если бы закон распределения величины V был симметричным (как нормальный закон или распределение Стьюдента), естественно было бы взять интервал /р симметричным относительно математического ожидания. В данном случае закон к п _ х (v) несимметричен. Условимся выбирать интервал /р так, чтобы вероятности выхода величины V за пределы интервала вправо и влево (заштрихованные площади на рис. 14.4.1) были одинаковы и равны

Чтобы построить интервал / р с таким свойством, воспользуемся табл. 4 приложения: в ней приведены числа у} такие, что

для величины V, имеющей х 2 -распределение с г степенями свободы. В нашем случае г = п - 1. Зафиксируем г = п - 1 и найдем в соответствующей строке табл. 4 два значения х 2 - одно, отвечающее вероятности другое - вероятности Обозначим эти

значения у 2 и xl ? Интервал имеет у 2 , своим левым, а у ~ правым концом.

Теперь найдем по интервалу / р искомый доверительный интервал /|, для дисперсии с границами D, и D 2 , который накрывает точку D с вероятностью р:

Построим такой интервал / (, = (?> ь А), который накрывает точку D тогда и только тогда, когда величина V попадает в интервал / р. Покажем, что интервал

удовлетворяет этому условию. Действительно, неравенства равносильны неравенствам

а эти неравенства выполняются с вероятностью р. Таким образом, доверительный интервал для дисперсии найден и выражается формулой (14.4.13).

Пример 3. Найти доверительный интервал для дисперсии в условиях примера 2 подраздела 14.3, если известно, что величинаX распределена нормально.

Решение. Имеем . По таблице 4 приложения

находим при г = п - 1 = 19

По формуле (14.4.13) находим доверительный интервал для дисперсии

Соответствующий интервал для среднего квадратичного отклонения: (0,21; 0,32). Этот интервал лишь незначительно превосходит полученный в примере 2 подраздела 14.3 приближенным методом интервал (0,21; 0,29).

  • На рисунке 14.3.1 рассматривается доверительный интервал, симметричный относительно а. Вообще, как мы увидим дальше, это необязательно.

Одним из методов решения статистических задач является вычисление доверительного интервала. Он используется, как более предпочтительная альтернатива точечной оценке при небольшом объеме выборки. Нужно отметить, что сам процесс вычисления доверительного интервала довольно сложный. Но инструменты программы Эксель позволяют несколько упростить его. Давайте узнаем, как это выполняется на практике.

Этот метод используется при интервальной оценке различных статистических величин. Главная задача данного расчета – избавится от неопределенностей точечной оценки.

В Экселе существуют два основных варианта произвести вычисления с помощью данного метода: когда дисперсия известна, и когда она неизвестна. В первом случае для вычислений применяется функция ДОВЕРИТ.НОРМ , а во втором — ДОВЕРИТ.СТЮДЕНТ .

Способ 1: функция ДОВЕРИТ.НОРМ

Оператор ДОВЕРИТ.НОРМ , относящийся к статистической группе функций, впервые появился в Excel 2010. В более ранних версиях этой программы используется его аналог ДОВЕРИТ . Задачей этого оператора является расчет доверительного интервала с нормальным распределением для средней генеральной совокупности.

Его синтаксис выглядит следующим образом:

ДОВЕРИТ.НОРМ(альфа;стандартное_откл;размер)

«Альфа» — аргумент, указывающий на уровень значимости, который применяется для расчета доверительного уровня. Доверительный уровень равняется следующему выражению:

(1-«Альфа»)*100

«Стандартное отклонение» — это аргумент, суть которого понятна из наименования. Это стандартное отклонение предлагаемой выборки.

«Размер» — аргумент, определяющий величину выборки.

Все аргументы данного оператора являются обязательными.

Функция ДОВЕРИТ имеет точно такие же аргументы и возможности, что и предыдущая. Её синтаксис таков:

ДОВЕРИТ(альфа;стандартное_откл;размер)

Как видим, различия только в наименовании оператора. Указанная функция в целях совместимости оставлена в Excel 2010 и в более новых версиях в специальной категории «Совместимость» . В версиях же Excel 2007 и ранее она присутствует в основной группе статистических операторов.

Граница доверительного интервала определяется при помощи формулы следующего вида:

X+(-)ДОВЕРИТ.НОРМ

Где X – это среднее выборочное значение, которое расположено посередине выбранного диапазона.

Теперь давайте рассмотрим, как рассчитать доверительный интервал на конкретном примере. Было проведено 12 испытаний, вследствие которых были получены различные результаты, занесенные в таблицу. Это и есть наша совокупность. Стандартное отклонение равно 8. Нам нужно рассчитать доверительный интервал при уровне доверия 97%.

  1. Выделяем ячейку, куда будет выводиться результат обработки данных. Щелкаем по кнопке «Вставить функцию» .
  2. Появляется Мастер функций . Переходим в категорию «Статистические» и выделяем наименование «ДОВЕРИТ.НОРМ» . После этого клацаем по кнопке «OK» .
  3. Открывается окошко аргументов. Его поля закономерно соответствуют наименованиям аргументов.
    Устанавливаем курсор в первое поле – «Альфа» . Тут нам следует указать уровень значимости. Как мы помним, уровень доверия у нас равен 97%. В то же время мы говорили, что он рассчитывается таким путем:

    (1-уровень доверия)/100

    То есть, подставив значение, получаем:

    Путем нехитрых расчетов узнаем, что аргумент «Альфа» равен 0,03 . Вводим данное значение в поле.

    Как известно, по условию стандартное отклонение равно 8 . Поэтому в поле «Стандартное отклонение» просто записываем это число.

    В поле «Размер» нужно ввести количество элементов проведенных испытаний. Как мы помним, их 12 . Но чтобы автоматизировать формулу и не редактировать её каждый раз при проведении нового испытания, давайте зададим данное значение не обычным числом, а при помощи оператора СЧЁТ . Итак, устанавливаем курсор в поле «Размер» , а затем кликаем по треугольнику, который размещен слева от строки формул.

    Появляется список недавно применяемых функций. Если оператор СЧЁТ применялся вами недавно, то он должен быть в этом списке. В таком случае, нужно просто кликнуть по его наименованию. В обратном же случае, если вы его не обнаружите, то переходите по пункту «Другие функции…» .

  4. Появляется уже знакомый нам Мастер функций . Опять перемещаемся в группу «Статистические» . Выделяем там наименование «СЧЁТ» . Клацаем по кнопке «OK» .
  5. Появляется окно аргументов вышеуказанного оператора. Данная функция предназначена для того, чтобы вычислять количество ячеек в указанном диапазоне, которые содержат числовые значения. Синтаксис её следующий:

    СЧЁТ(значение1;значение2;…)

    Группа аргументов «Значения» представляет собой ссылку на диапазон, в котором нужно рассчитать количество заполненных числовыми данными ячеек. Всего может насчитываться до 255 подобных аргументов, но в нашем случае понадобится лишь один.

    Устанавливаем курсор в поле «Значение1» и, зажав левую кнопку мыши, выделяем на листе диапазон, который содержит нашу совокупность. Затем его адрес будет отображен в поле. Клацаем по кнопке «OK» .

  6. После этого приложение произведет вычисление и выведет результат в ту ячейку, где она находится сама. В нашем конкретном случае формула получилась такого вида:

    ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

    Общий результат вычислений составил 5,011609 .

  7. Но это ещё не все. Как мы помним, граница доверительного интервала вычисляется путем сложения и вычитания от среднего выборочного значения результата вычисления ДОВЕРИТ.НОРМ . Таким способом рассчитывается соответственно правая и левая граница доверительного интервала. Само среднее выборочное значение можно рассчитать при помощи оператора СРЗНАЧ .

    Данный оператор предназначен для расчета среднего арифметического значения выбранного диапазона чисел. Он имеет следующий довольно простой синтаксис:

    СРЗНАЧ(число1;число2;…)

    Аргумент «Число» может быть как отдельным числовым значением, так и ссылкой на ячейки или даже целые диапазоны, которые их содержат.

    Итак, выделяем ячейку, в которую будет выводиться расчет среднего значения, и щелкаем по кнопке «Вставить функцию» .

  8. Открывается Мастер функций . Снова переходим в категорию «Статистические» и выбираем из списка наименование «СРЗНАЧ» . Как всегда, клацаем по кнопке «OK» .
  9. Запускается окно аргументов. Устанавливаем курсор в поле «Число1» и с зажатой левой кнопкой мыши выделяем весь диапазон значений. После того, как координаты отобразились в поле, клацаем по кнопке «OK» .
  10. После этого СРЗНАЧ выводит результат расчета в элемент листа.
  11. Производим расчет правой границы доверительного интервала. Для этого выделяем отдельную ячейку, ставим знак «=» и складываем содержимое элементов листа, в которых расположены результаты вычислений функций СРЗНАЧ и ДОВЕРИТ.НОРМ . Для того, чтобы выполнить расчет, жмем на клавишу Enter . В нашем случае получилась следующая формула:

    Результат вычисления: 6,953276

  12. Таким же образом производим вычисление левой границы доверительного интервала, только на этот раз от результата вычисления СРЗНАЧ отнимаем результат вычисления оператора ДОВЕРИТ.НОРМ . Получается формула для нашего примера следующего типа:

    Результат вычисления: -3,06994

  13. Мы попытались подробно описать все действия по вычислению доверительного интервала, поэтому детально расписали каждую формулу. Но можно все действия соединить в одной формуле. Вычисление правой границы доверительного интервала можно записать так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

  14. Аналогичное вычисление левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

Способ 2: функция ДОВЕРИТ.СТЮДЕНТ

Кроме того, в Экселе есть ещё одна функция, которая связана с вычислением доверительного интервала – ДОВЕРИТ.СТЮДЕНТ . Она появилась, только начиная с Excel 2010. Данный оператор выполняет вычисление доверительного интервала генеральной совокупности с использованием распределения Стьюдента. Его очень удобно использовать в том случае, когда дисперсия и, соответственно, стандартное отклонение неизвестны. Синтаксис оператора такой:

ДОВЕРИТ.СТЬЮДЕНТ(альфа;стандартное_откл;размер)

Как видим, наименования операторов и в этом случае остались неизменными.

Посмотрим, как рассчитать границы доверительного интервала с неизвестным стандартным отклонением на примере всё той же совокупности, что мы рассматривали в предыдущем способе. Уровень доверия, как и в прошлый раз, возьмем 97%.

  1. Выделяем ячейку, в которую будет производиться расчет. Клацаем по кнопке «Вставить функцию» .
  2. В открывшемся Мастере функций переходим в категорию «Статистические» . Выбираем наименование «ДОВЕРИТ.СТЮДЕНТ» . Клацаем по кнопке «OK» .
  3. Производится запуск окна аргументов указанного оператора.

    В поле «Альфа» , учитывая, что уровень доверия составляет 97%, записываем число 0,03 . Второй раз на принципах расчета данного параметра останавливаться не будем.

    После этого устанавливаем курсор в поле «Стандартное отклонение» . На этот раз данный показатель нам неизвестен и его требуется рассчитать. Делается это при помощи специальной функции – СТАНДОТКЛОН.В . Чтобы вызвать окно данного оператора, кликаем по треугольнику слева от строки формул. Если в открывшемся списке не находим нужного наименования, то переходим по пункту «Другие функции…» .

  4. Запускается Мастер функций . Перемещаемся в категорию «Статистические» и отмечаем в ней наименование «СТАНДОТКЛОН.В» . Затем клацаем по кнопке «OK» .
  5. Открывается окно аргументов. Задачей оператора СТАНДОТКЛОН.В является определение стандартного отклонения при выборке. Его синтаксис выглядит так:

    СТАНДОТКЛОН.В(число1;число2;…)

    Нетрудно догадаться, что аргумент «Число» — это адрес элемента выборки. Если выборка размещена единым массивом, то можно, использовав только один аргумент, дать ссылку на данный диапазон.

    Устанавливаем курсор в поле «Число1» и, как всегда, зажав левую кнопку мыши, выделяем совокупность. После того, как координаты попали в поле, не спешим жать на кнопку «OK» , так как результат получится некорректным. Прежде нам нужно вернуться к окну аргументов оператора ДОВЕРИТ.СТЮДЕНТ , чтобы внести последний аргумент. Для этого кликаем по соответствующему наименованию в строке формул.

  6. Снова открывается окно аргументов уже знакомой функции. Устанавливаем курсор в поле «Размер» . Опять жмем на уже знакомый нам треугольник для перехода к выбору операторов. Как вы поняли, нам нужно наименование «СЧЁТ» . Так как мы использовали данную функцию при вычислениях в предыдущем способе, в данном списке она присутствует, так что просто щелкаем по ней. Если же вы её не обнаружите, то действуйте по алгоритму, описанному в первом способе.
  7. Попав в окно аргументов СЧЁТ , ставим курсор в поле «Число1» и с зажатой кнопкой мыши выделяем совокупность. Затем клацаем по кнопке «OK» .
  8. После этого программа производит расчет и выводит значение доверительного интервала.
  9. Для определения границ нам опять нужно будет рассчитать среднее значение выборки. Но, учитывая то, что алгоритм расчета при помощи формулы СРЗНАЧ тот же, что и в предыдущем способе, и даже результат не изменился, не будем на этом подробно останавливаться второй раз.
  10. Сложив результаты вычисления СРЗНАЧ и ДОВЕРИТ.СТЮДЕНТ , получаем правую границу доверительного интервала.
  11. Отняв от результатов расчета оператора СРЗНАЧ результат расчета ДОВЕРИТ.СТЮДЕНТ , имеем левую границу доверительного интервала.
  12. Если расчет записать одной формулой, то вычисление правой границы в нашем случае будет выглядеть так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

  13. Соответственно, формула расчета левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

Как видим, инструменты программы Excel позволяют существенно облегчить вычисление доверительного интервала и его границ. Для этих целей используются отдельные операторы для выборок, у которых дисперсия известна и неизвестна.

Ум заключается не только в знании, но и в умении прилагать знание на деле. (Аристотель)

Доверительные интервалы

Общий обзор

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI - Confidence Interval, ДИ - Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

Доверительный интервал для среднего

Использование нормального распределения

Выборочное среднее имеет нормальное распределение, если объем выборки большой, поэтому можно применить знания о нормальном распределении при рассмотрении выборочного среднего.

В частности, 95% распределения выборочных средних находится в пределах 1,96 стандартных отклонений (SD) среднего популяции.

Когда у нас есть только одна выборка, мы называем это стандартной ошибкой среднего (SEM) и вычисляем 95% доверительного интервала для среднего следующим образом:

Если повторить этот эксперимент несколько раз, то интервал будет содержать истинное среднее популяции в 95% случаев.

Обычно это доверительный интервал как, например, интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное среднее популяции (генеральное среднее).

Хотя это не вполне строго (среднее в популяции есть фиксированное значение и поэтому не может иметь вероятность, отнесённую к нему) таким образом интерпретировать доверительный интервал, но концептуально это удобнее для понимания.

Использование t- распределения

Можно использовать нормальное распределение, если знать значение дисперсии в популяции. Кроме того, когда объем выборки небольшой, выборочное среднее отвечает нормальному распределению, если данные, лежащие в основе популяции, распределены нормально.

Если данные, лежащие в основе популяции, распределены ненормально и/или неизвестна генеральная дисперсия (дисперсия в популяции), выборочное среднее подчиняется t-распределению Стьюдента .

Вычисляем 95% доверительный интервал для генерального среднего в популяции следующим образом:

Где - процентная точка (процентиль) t- распределения Стьюдента с (n-1) степенями свободы, которая даёт двухстороннюю вероятность 0,05.

Вообще, она обеспечивает более широкий интервал, чем при использовании нормального распределения, поскольку учитывает дополнительную неопределенность, которую вводят, оценивая стандартное отклонение популяции и/или из-за небольшого объёма выборки.

Когда объём выборки большой (порядка 100 и более), разница между двумя распределениями (t-Стьюдента и нормальным) незначительна. Тем не менее всегда используют t- распределение при вычислении доверительных интервалов, даже если объем выборки большой.

Обычно указывают 95% ДИ. Можно вычислить другие доверительные интервалы, например 99% ДИ для среднего.

Вместо произведения стандартной ошибки и табличного значения t- распределения, которое соответствует двусторонней вероятности 0,05, умножают её (стандартную ошибку) на значение, которое соответствует двусторонней вероятности 0,01. Это более широкий доверительный интервал, чем в случае 95%, поскольку он отражает увеличенное доверие к тому, что интервал действительно включает среднее популяции.

Доверительный интервал для пропорции

Выборочное распределение пропорций имеет биномиальное распределение. Однако если объём выборки n разумно большой, тогда выборочное распределение пропорции приблизительно нормально со средним .

Оцениваем выборочным отношением p=r/n (где r - количество индивидуумов в выборке с интересующими нас характерными особенностями), и стандартная ошибка оценивается:

95% доверительный интервал для пропорции оценивается:

Если объём выборки небольшой (обычно когда np или n(1-p) меньше 5 ), тогда необходимо использовать биномиальное распределение для того, чтобы вычислить точные доверительные интервалы.

Заметьте, что если p выражается в процентах, то (1-p) заменяют на (100-p) .

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.

Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение.