Формулы средней ошибки выборки.

Рассмотрим подробно перечисленные выше способы формирования выборочной совокупности и возникающие при этом ошибки репрезентативности.

Собственно-случайная выборка основывается на отборе единиц из генеральной совокупности наугад без каких-либо элементов системности. Технически собственно-случайный отбор проводят методом жеребьевки (например, розыгрыши лотерей) или по таблице случайных чисел.

Собственно-случайный отбор «в чистом виде» в практике выборочного наблюдения применяется редко, но он является исходным среди других видов отбора, в нем реализуются основные принципы выборочного наблюдения. Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.

Ошибка выборочного наблюдения - это разность между величиной параметра в генеральной совокупности, и его величиной, вычисленной по результатам выборочного наблюдения. Для средней количественного признака ошибка выборки определяется

Показатель называется предельной ошибкой выборки.

Выборочная средняя является случайной величиной, которая может принимать различные значения в зависимости от того, какие единицы попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок - среднюю ошибку выборки, которая зависит от:

  • 1) объема выборки: чем больше численность, тем меньше величина средней ошибки;
  • 2) степени изменения изучаемого признака: чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки.

При случайном повторном отборе средняя ошибка рассчитывается

Практически генеральная дисперсия точно не известна, но в теории вероятности доказано, что

Так как величина при достаточно больших n близка к 1, можно считать, что. Тогда средняя ошибка выборки может быть рассчитана:

Но в случаях малой выборки (при n30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле

При случайной бесповторной выборке приведенные формулы корректируются на величину. Тогда средняя ошибка бесповторной выборки:

Т.к. всегда меньше, то множитель () всегда меньше 1. Это значит, что средняя ошибка при бесповторном отборе всегда меньше, чем при повторном.

Механическая выборка применяется, когда генеральная совокупность каким-либо способом упорядочена (например, списки избирателей по алфавиту, телефонные номера, номера домов, квартир). Отбор единиц осуществляется через определенный интервал, который равен обратному значению процента выборки. Так при 2% выборке отбирается каждая 50 единица =1/0,02 , при 5% каждая 1/0,05=20 единица генеральной совокупности.

Начало отсчета выбирается разными способами: случайным образом, из середины интервала, со сменой начала отсчета. Главное при этом - избежать систематической ошибки. Например, при 5% выборке, если первой единицей выбрана 13-я, то следующие 33, 53, 73 и т.д.

По точности механический отбор близок к собственно-случайной выборке. Поэтому для определения средней ошибки механической выборки используют формулы собственно-случайного отбора.

При типическом отборе обследуемая совокупность предварительно разбивается на однородные, однотипные группы. Например, при обследовании предприятий это могут быть отрасли, подотрасли, при изучении населения - районы, социальные или возрастные группы. Затем осуществляется независимый выбор из каждой группы механическим или собственно-случайным способом.

Типическая выборка дает более точные результаты по сравнению с другими способами. Типизация генеральной совокупности обеспечивает представительство в выборке каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Следовательно, при нахождении ошибки типической выборки согласно правилу сложения дисперсий () необходимо учесть лишь среднюю из групповых дисперсий. Тогда средняя ошибка выборки:

при повторном отборе

при бесповторном отборе

где - средняя из внутригрупповых дисперсий в выборке.

Серийный (или гнездовой) отбор применяется в случае, когда генеральная совокупность разбита на серии или группы до начала выборочного обследования. Этими сериями могут быть упаковки готовой продукции, студенческие группы, бригады. Серии для обследования выбираются механическим или собственно-случайным способом, а внутри серии производится сплошное обследование единиц. Поэтому средняя ошибка выборки зависит только от межгрупповой (межсерийной) дисперсии, которая вычисляется по формуле:

где r - число отобранных серий;

Средняя і-той серии.

Средняя ошибка серийной выборки рассчитывается:

при повторном отборе

при бесповторном отборе

где R - общее число серий.

Комбинированный отбор представляет собой сочетание рассмотренных способов отбора.

Средняя ошибка выборки при любом способе отбора зависит главным образом от абсолютной численности выборки и в меньшей степени - от процента выборки. Предположим, что проводится 225 наблюдений в первом случае из генеральной совокупности в 4500 единиц и во втором - в 225000 единиц. Дисперсии в обоих случаях равны 25. Тогда в первом случае при 5 %-ном отборе ошибка выборки составит:

Во втором случае при 0,1 %-ном отборе она будет равна:

Таким образом, при уменьшении процента выборки в 50 раз, ошибка выборки увеличилась незначительно, так как численность выборки не изменилась.

Предположим, что численность выборки увеличили до 625 наблюдений. В этом случае ошибка выборки равна:

Увеличение выборки в 2,8 раза при одной и той же численности генеральной совокупности снижает размеры ошибки выборки более чем в 1,6 раза.

Ошибки систематические и случайные

Модульная единица 2 Ошибки выборки

Поскольку выборка охватывает, как правило, весьма незначительную часть генеральной совокупности, то следует предполагать, что будут иметь место различия между оценкой и характеристикой генеральной совокупности, которую эта оценка отображает. Эти различия получили название ошибок отображения или ошибок репрезентативности. Ошибки репрезентативности подразделяются на два типа: систематические и случайные.

Систематические ошибки - это постоянное завышение или занижение значения оценки по сравнению с характеристикой генеральной совокупности. Причиной появления систематической ошибки является несоблюдение принципа равновероятности попадания каждой единицы генеральной совокупности в выборку, то есть выборка формируется из преимущественно «худших» (или « лучших») представителей генеральной совокупности. Соблюдение принципа равновозможности попадания каждой единицы в выборку позволяет полностью исключить этот тип ошибок.

Случайные ошибки – это меняющиеся от выборки к выборке по знаку и величине различия между оценкой и оцениваемой характеристикой генеральной совокупности. Причина возникновения случайных ошибок- игра случая при формировании выборки, составляющей лишь часть генеральной совокупности. Этот тип ошибок органически присущ выборочному методу. Исключить их полностью нельзя, задача состоит в том, чтобы предсказать их возможную величину и свести их к минимуму. Порядок связанных в связи с этим действий вытекает из рассмотрения трех видов случайных ошибок: конкретной, средней и предельной.

2.2.1 Конкретная ошибка – это ошибка одной проведенной выборки. Если средняя по этой выборке () является оценкой для генеральной средней (0) и, если предположить, что эта генеральная средняя нам известна, то разница = -0 и будет конкретной ошибкой этой выборки. Если из этой генеральной совокупности выборку повторим многократно, то каждый раз получим новую величину конкретной ошибки: …, и так далее. Относительно этих конкретных ошибок можно сказать следующее: некоторые из них будут совпадать между собой по величине и знаку, то есть имеет место распределение ошибок, часть из них будет равна 0, наблюдается совпадение оценки и параметра генеральной совокупности;

2.2.2 Средняя ошибка – это средняя квадратическая из всех возможных по воле случая конкретных ошибок оценки: , где - величина меняющихся конкретных ошибок; частота (вероятность) встречаемости той или иной конкретной ошибки. Средняя ошибка выборки показывает насколько в среднем можно ошибиться, если на основе оценки делается суждение о параметре генеральной совокупности. Приведенная формула раскрывает содержание средней ошибки, но она не может быть использована для практических расчетов, хотя бы потому, что предполагает знание параметра генеральной совокупности, что само по себе исключает необходимость выборки.



Практические расчеты средней ошибки оценки основываются на той предпосылке, что она (средняя ошибка) по сути является средним квадратическим отклонением всех возможных значений оценки. Эта предпосылка позволяет получить алгоритмы расчета средней ошибки, опирающиеся на данные одной единственной выборки. В частности средняя ошибка выборочной средней может быть установлена на основе следующих рассуждений. Имеется выборка (,… ) состоящая из единиц. По выборке в качестве оценки генеральной средней определена выборочная средняя . Каждое значение(,… ) , стоящее под знаком суммы, следует рассматривать как независимую случайную величину, поскольку при бесконечном повторении выборки первая, вторая и т.д. единицы могут принимать любые значения из присутствующих в генеральной совокупности. Следовательно Поскольку, как известно, дисперсия суммы независимых случайных величин равна сумме дисперсий, то . Отсюда следует, что средняя ошибка для выборочной средней будет равная и находится она в обратной зависимости от численности выборки (через корень квадратный из нее) и в прямой от среднего квадратического отклонения признака в генеральной совокупности. Это логично, поскольку выборочная средняя является состоятельной оценкой для генеральной средней и по мере увеличения численности выборки приближается по своему значению к оцениваемому параметру генеральной совокупности. Прямая зависимость средней ошибки от колеблемости признака обусловлена тем, что чем больше изменчивость признака в генеральной совокупности, тем сложнее на основе выборки построить адекватную модель генеральной совокупности. На практике среднее квадратическое отклонение признака по генеральной совокупности заменяется его оценкой по выборке, и тогда формула для расчета средней ошибки выборочной средней приобретает вид:, при этом учитывая смещенность выборочной дисперсии , выборочное среднее квадратическое отклонение рассчитывается по формуле = . Так как символом n обозначена численность выборки. ,то в знаменателе при расчете среднего квадратического отклонения должна использоваться не численность выборки (n), а так называемое число степеней свободы (n-1). Под числом степеней свободы понимается число единиц в совокупности, которые могут свободно варьировать (изменяться), если по совокупности определена какая-либо характеристика. В нашем случае, поскольку по выборке определена ее средняя, свободно варьировать могут единицы.

В таблице 2.2 приведены формулы для расчета средних ошибок различных выборочных оценок. Как видно из этой таблицы, величина средней ошибки по всем оценкам находится в обратной связи с численностью выборки и в прямой с колеблемостью. Это можно сказать и относительно средней ошибки выборочной доли (частости). Под корнем стоит дисперсия альтернативного признака, установленная по выборке ()

Приведенные в таблице 2.2 формулы относятся к так называемому случайному, повторному отбору единиц в выборку. При других способах отбора, о которых речь пойдет ниже, формулы будут несколько видоизменяться.

Таблица 2.2

Формулы для расчета средних ошибок выборочных оценок

2.2.3 Предельная ошибка выборки Знание оценки и ее средней ошибки в ряде случаев совершенно недостаточно. Например, при использовании гормонов при кормлении животных знать только средний размер неразложившихся их вредных остатков и среднюю ошибку, значит подвергать потребителей продукции серьезной опасности. Здесь настоятельно напрашивается необходимость определения максимальной (предельной ошибки ). При использовании выборочного метода предельная ошибка устанавливается не в виде конкретной величины, а виде равных границ

(интервалов) в ту и другую сторону от значения оценки.

Определение границ предельной ошибки основывается на особенностях распределения конкретных ошибок. Для так называемых больших выборок, численность которых более 30 единиц () , конкретные ошибки распределяются в соответствии с нормальным законом распределения; при малых выборках () конкретные ошибки распределяются в соответствии с законом распределения Госсета

(Стьюдента). Применительно к конкретным ошибкам выборочной средней функция нормального распределения имеет вид: , где - плотность вероятности появления тех или иных значений , при условии, что , где выборочные средние; - генеральная средняя, - средняя ошибка для выборочной средней. Поскольку средняя ошибка () является величиной постоянной, то в соответствии с нормальным законом распределяются конкретные ошибки , выраженные в долях средней ошибки, или так называемых нормированных отклонениях.

Взяв интеграл функции нормального распределения, можно установить вероятность того, что ошибка будет заключена в некотором интервале изменения t и вероятность того, что ошибка выйдет за пределы этого интервала (обратное событие). Например, вероятность того, что ошибка не превысит половину средней ошибки (в ту и другую сторону от генеральной средней) составляет 0,3829, что ошибка будет заключена в пределах одной средней ошибки - 0,6827, 2-х средних ошибок -0,9545 и так далее.

Взаимосвязь между уровнем вероятности и интервалом изменения t (а в конечном счете интервалом изменения ошибки) позволяет подойти к определению интервала (или границ) предельной ошибки, увязав его величину с вероятностью осуществления.. Вероятность осуществления -это вероятность того, что ошибка будет находится в некотором интервале. Вероятность осуществления будет «доверительной» в том случае, если противоположное событие (ошибка будет находится вне интервала) имеет такую вероятность появления, которой можно пренебречь. Поэтому доверительный уровень вероятности устанавливают, как правило, не ниже 0,90 (вероятность противоположного события равна 0,10). Чем больше негативных последствий имеет появление ошибок вне установленного интервала, тем выше должен быть доверительный уровень вероятности (0,95; 0,99 ; 0,999 и так далее).

Выбрав доверительный уровень вероятности по таблице интеграла вероятности нормального распределения, следует найти соответствующее значение t, а затем используя выражение =определить интервал предельной ошибки . Смысл полученной величины в следующем – с принятым доверительным уровнем вероятности предельная ошибка выборочной средней не превысит величину .

Для установления границ предельной ошибки на основе больших выборок для других оценок (дисперсии, среднего квадратического отклонения, доли и так далее) используется выше рассмотренный подход, с учетом того, что для определения средней ошибки для каждой оценки используется свой алгоритм.

Что касается малых выборок () то, как уже говорилось, распределение ошибок оценок соответствует в этом случае распределению t - Стьюдента. Особенность этого распределения состоит в том, что в качестве параметра в нем, наряду с ошибкой, присутствует численность выборки,вернее не численность выборки, а число степеней свободы При увеличении численности выборки распределение t-Стьюдента приближается к нормальному, а при эти распределения практически совпадают. Сопоставляя значения величины t-Стьюдента и t - нормального распределения при одной и той же доверительной вероятности можно сказать, что величина t-Стьюдента всегда больше t - нормального распределения, причем, различия возрастают с уменьшением численности выборки и с повышением доверительного уровня вероятности. Следовательно, при использовании малых выборок имеют место по сравнению с выборками большими, более широкие границы предельной ошибки, причем, эти границы расширяются с уменьшением численности выборки и повышением доверительного уровня вероятности.

    Формула доверительной вероятности при оценке генераль ной доли признака. Средняя квадратическая ошибка повторной и бесповторной выборок и построение доверительного интервала для генеральной доли признака.

  1. Формула доверительной вероятности при оценке генеральной средней. Средняя квадратическая ошибка повторной и бес­повторной выборок и построение доверительного интервала для генеральной средней.

Построение доверительного интервала для гeнеральной средней и гeнеральной доли по большим выборкам . Для построения доверительных интервалов для параметров генеральных совокупностей м.б. реализованы 2 подхода, основанных на знании точного (при данном объеме выборки n) или асимптотического (при n → ∞) распределения выборочных характеристик (или некоторых функций от них). Первый подход реализован далее при построении интервальных оценок параметров для малых выборок. В данном параграфе рассматривается второй подход, применимый для больших выборок (порядка сотен наблюдений).

Теорема . Вер-ть того, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превзойдет число Δ > 0 (по абсолютной величине), равна:

Где

,

Где
.

Ф(t) - функция (интеграл вероятностей) Лапласа.

Формулы получили название формул доверительной вер-ти для средней и доли .

Среднее квадратическое отклонение выборочной средней и выборочной долисобственно-случайной выборки называетсясредней квадратической (стандартной) ошибкой выборки (для бесповторной выборки обозначаем соответственно и).

Следствие 1 . При заданной доверительной вер-ти γ предельная ошибка выборки равна t-кратной величине средней квадратической ошибки, где Ф(t) = γ, т.е.

,

.

Следствие 2 . Интервальные оценки (доверительные интервалы) для генеральной средней и генеральной доли могут быть найдены по формулам:

,

.

  1. Определение необходимого объема повторной и бесповтор­ной выборок при оценке генеральной средней и доли.

Для проведения выборочного наблюдения весьма важно правильно установить объем выборки n, к-ый в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты для определения n необходимо задать надежность (доверительную вер-ть) оценки γ и точность (предельную ошибку выборки) Δ.

Если найден объем повторной выборки n, то объем соответствующей бесповторной выборки n" можно определить по формуле:

.

Т.к.
, то при одних и тех же точности и надежности оценок объем бесповторной выборки n" всегда меньше объема повторной выборки n.

  1. Статистическая гипотеза и статистический критерий. Ошибки 1-го и 2-го рода. Уровень значимости и мощность критерия. Принцип практической уверенности.

Определение . Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения.

Различают простую и сложную статистические гипотезы . Простая гипотеза , в отличие от сложной, полностью определяет теоретическую функцию распределения СВ.

Проверяемую гипотезу обычно называют нулевой (или основной ) и обозначают Н 0 . Наряду с нулевой гипотезой рассматривают альтернативную , или конкурирующую , гипотезу H 1 , являющуюся логическим отрицанием Н 0 . Нулевая и альтернативная гипотезы представляют собой 2 возможности выбора, осуществляемого в задачах проверки статистических гипотез.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика)
, полученная по выборке
, точное или приближенное распределение которой известно.

Затем по этому выборочному распределению определяется критическое значение - такое, что если гипотеза Н 0 верна, то вер-ть
мала; так что в соответствии с принципом практической уверенности в условиях данного исследования событие
можно (с некоторым риском) считать практически невозможным. Поэтому, если в данном конкретном случае обнаруживается отклонение
, то гипотеза Н 0 отвергается, в то время как появление значения
, считается совместимым с гипотезой Н 0 , которая тогда принимается (точнее, не отвергается). Правило, по которому гипотеза Н 0 отвергается или принимается, называется статистическим критерием или статистическим тестом .

Принцип практической уверенности:

Если вер-ть события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие А не произойдет, и в практической д-ти вести себя так, как будто событие А вообще невозможно.

Т.о., множество возможных значений статистики - критерия (критической статистики) разбивается на 2 непересекающихся подмножества:критическую область (область отклонения гипотезы) W и область допустимых значений (область принятия гипотезы) . Если фактически наблюдаемое значение статистики критерияпопадает в критическую область W, то гипотезу Н 0 отвергают. При этом возможны четыре случая:

Определение . Вероятность α допустить ошибку l-го рода, т.е. отвергнуть гипотезу Н 0 , когда она верна, называется уровнем значимости , или размером критерия .

Вероятность допустить ошибку 2-го рода, т.е. принять гипотезу Н 0 , когда она неверна, обычно обозначают β.

Определение . Вероятность (1-β) не допустить ошибку 2-го рода, т.е. отвергнуть гипотезу Н 0 , когда она неверна, называется мощностью (или функцией мощности ) критерия .

Следует предпочесть ту критическую область, при которой мощность критерия будет наибольшей.

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 9.4 Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

На основании зарегистрированных в соответствии с программой статистического наблюдения значений признаков единиц выборочной совокупности рассчитываются обобщающие выборочные характеристики: выборочная средняя () и выборочная доля единиц, обладающих каким-либо интересующим исследователей признаком, в общей их численности (w ).

Разность между показателями выборочной и генеральной совокупности называется ошибкой выборки .

Ошибки выборки, как ошибки любого другого вида статистического наблюдения, подразделяются на ошибки регистрации и ошибки репрезентативности. Основной задачей выборочного метода является изучение и измерение случайных ошибок репрезентативности.

Выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок.

Средняя ошибка выборки (µ - мю) равна:

для средней ; для доли ,

где р - доля определенного признака в генеральной совокупности.

В этих формулах σ х 2 и р (1-р ) являются характеристиками генеральной совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными характеристиками выборочной совокупности на основании закона больших чисел, по которому выборочная совокупность при достаточно большом объеме достаточно точно воспроизводит характеристики генеральной совокупности. Методы расчета средних ошибок выборки для средней и для доли при повторном и бесповторном отборах приведены в табл. 6.1.

Таблица 6.1.

Формулы расчета средней ошибки выборки для средней и для доли

Величина всегда меньше единицы, поэтому величина средней ошибки выборки при бесповторном отборе оказывается меньше, чем при повторном. В тех случаях, когда доля выборки незначительна и множитель близок к единице, поправкой можно пренебречь.

Утверждать, что генеральная средняя значения показателя или генеральная доля не выйдет за границы средней ошибки выборки можно лишь с определенной степенью вероятности. Поэтому, для характеристики ошибки выборки кроме средней ошибки рассчитывают предельную ошибку выборки (Δ), которая связана с гарантирующим ее уровнем вероятности.

Уровень вероятности (Р ) определяет величина нормированного отклонения (t ), и наоборот. Значения t даются в таблицах нормального распределения вероятностей. Наиболее часто используемые сочетания t и Р приведены в табл. 6.2.


Таблица 6.2

Значения нормированного отклонения t при соответствующих значениях уровней вероятности Р

t 1,0 1,5 2,0 2,5 3,0 3,5
Р 0,683 0,866 0,954 0,988 0,997 0,999

t - коэффициент доверия, зависящий от вероятности, с которой можно гарантировать, что предельная ошибка не превысит t -кратную среднюю ошибку. Он показывает, сколько средних ошибок содержится в предельной ошибке . Так, если t = 1, то с вероятностью 0,683 можно утверждать, что разность между выборочными и генеральными показателями не превысит одной средней ошибки.

Формулы для расчета предельных ошибок выборки приведены в табл. 6.3.

Таблица 6.3.

Формулы расчета предельной ошибки выборки для средней и для доли

После исчисления предельных ошибок выборки находят доверительные интервалы для генеральных показателей . Вероятность, которая принимается при расчете ошибки выборочной характеристики, называется доверительной. Доверительный уровень вероятности 0,95 означает, что только в 5 случаях из 100 ошибка может выйти за установленные границы; вероятности 0,954 - в 46 случаях из 1000, а при 0,999 - в 1 случае из 1000.

Для генеральной средней наиболее вероятные границы, в которых она будет находится с учетом предельной ошибки репрезентативности, будут иметь вид:

.

Наиболее вероятные границы, в которых будет находится генеральная доля, будут иметь вид:

.

Отсюда, генеральная средняя , генеральная доля .

Приведенные в табл. 6.3. формулы используются при определении ошибок выборки, осуществляемой собственно случайным и механическим методами.

При стратифицированном отборе в выборку обязательно попадают представители всех групп и обычно в тех же пропорциях, что и в генеральной совокупности. Поэтому ошибка выборки в данном случае зависит главным образом от средней из внутригрупповых дисперсий. Исходя из правила сложения дисперсий можно сделать вывод, что ошибка выборки для стратифицированного отбора всегда будет меньше, чем для собственно случайного.

При серийном (гнездовом) отборе мерой колеблемости будет межгрупповая дисперсия.