Статистические ряды распределения, их значение и применение в статистике. Понятие и виды статистических рядов

Зарегистрированные в результате наблюдения индивидуальные значения изучаемого варьирующего признака образуют так называемый первичный ряд .

Первым шагом в упорядочении первичного ряда является его ранжирование. Располагая значения признака первичного ряда, например, в возрастающем порядке, получают ранжированный ряд .

Рассмотрим первичный ряд, полученный при регистрации уровня квалификации рабочих

Ранжированный ряд будет иметь вид:

Рассматривая этот ранжированный ряд, мы видим, что некоторые значения признака повторяются у разных рабочих (единиц совокупности).

Оформим результаты наблюдений более компактно, поставив в соответствие каждому значению признака подсчет численности единиц совокупности, имеющих одинаковые значения признаков. Для нашего примера имеем:

Получим ранжированный (упорядоченный) ряд, характеризующий распределение изучаемого признака по единицам совокупности. В статистике такие ряды принято называть рядами распределения .

При достаточно большом числе единиц совокупности даже для несплошного наблюдения, приведенное выше упорядочение данных наблюдения может быть громоздким. Поэтому, такое ранжирование, как правило, сопровождается группировкой и сводкой. Изучаемый признак в этом случае является группировочным.

Отсюда общее определение:

Статистические ряды распределения – это упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку .

Любой статистический ряд распределения состоит из двух элементов:

А) из упорядоченных значений признака или вариантов;

Б) количества единиц совокупности, имеющих данные значения, называемых частотами . Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями .

Т.о., варианта – это отдельное значение (или вариант отдельной группы) варьируемого признака, которые он принимает в ряду распределения. Говоря о частотах надо иметь в виду, что сумма частот составляет объем изучаемой совокупности (или, по другому, объем ряда распределения).

Буквой “X” принято обозначать варианту признака, а буквой f – частоту.

По своему содержанию признаки могут быть атрибутивными или количественными.

Ряды распределения построенные по атрибутивному (или качественному) признаку называются атрибутивными рядами распределения .

Например, распределение студентов по форме обучения, по факультетам, по специальностям и т.д.

Ряды распределения, построенные по количественному признаку называются вариационными рядами .

Например, распределение работников по стажу работы, по уровню заработной платы, по производительности труда и т.д.

Изучаемые в статистике признаки являются изменяющимися.

По характеру изменения (вариаций) значений признака различают:

А) признаки с прерывным изменением;

Б) признаки с непрерывным изменением.

Признаки с прерывным изменением могут принимать лишь конечное число определенных значений (например, тарифный разряд работников, количество станков и т.д.).

Признаки с непрерывным изменением могут принимать в определенных границах любые значения (например, стаж работы, размер зарплаты, пробег автотранспорта и т.п.)

По способу построения различают дискретные (прерывные) вариационные ряды, основанные на прерывной вариации признака, и интервальными (непрерывными), базирующиеся на непрерывно изменяющемся значении признака.

При построении дискретного вариационного ряда в первой графе (строке) указываются конкретные значения каждого индивидуального значения признака (т.е. каждой варианты), а во второй графе(строке) – частоты или частости.

Например ряд, характеризующий распределение работников по тарифным разрядам.

При построении интервального вариационного ряда отдельные значения вариант указываются в значениях “от - до”.

Интервалы можно брать как равные, так и неравные. Для каждого из них указываются частоты и частости, (т.е. абсолютное или относительное числа единиц совокупности, у которых значение варианты находится внутри данного интервала).

Первый и последний интервалы ряда во многих случаях берутся незакрытыми, т.е. для первого интервала указывается только верхняя граница (“до… ”) а, для последнего только нижняя (“от… и выше”, “свыше…”). Использование незакрытых интервалов удобно, когда в совокупности встречается незначительное количество единиц, с очень малыми или очень большими значениями признака, резко отличающимися от всех остальных значений.

При построении интервальных вариационных рядов возникает вопрос о количестве групп, на которые следует разделить материал статистического наблюдения и вопрос о величине интервала каждой отдельной группы.

Эти вопросы уже изучались при рассмотрении метода группировки (см. тему 3). Там же были рассмотрены вопросы, важные для составления интервального ряда, такие как:

1) Определение начала отсчетов интервалов;

2) Подсчет частоты.

Следует иметь в виду, что интервальные вариационные ряды могут быть построены и для признаков с дискретной вариацией. Нередко в статистическом исследовании указывать отдельное значение дискретного признака нецелесообразно, т.к. это, как правило, затрудняет рассмотрение вариации признака. Поэтому возможные дискретные значения признака распределяются по группам и подсчитываются соответствующие им частоты (частости).

При построении интервального ряда по дискретному признаку, границы смежных интервалов не повторяют друг друга: следующий интервал начинается со следующего по порядку (после верхнего значения предыдущего интервала) дискретного значения признака.

Для расчета обобщенных характеристик рядов распределения можно пользоваться как частотами, так и частостями.

Частости как доли единицы: w1=f1/∑f, w2=f2/∑f и т.д.

Частости как проценты w1=(f1/∑f)*100, w2=(f2/∑f)*100 и т.д.


Похожая информация.


Результаты сводки и группировки, материалы статистического наблюдения оформляют в виде рядов распределения и статистических таблиц.

Статистические ряды распределения – это упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку. Они характеризуют состав, позволяют судить об однородности совокупности, границах ее изменения, закономерности развития наблюдаемого объекта.

В зависимости от признака, положенного в основу ряда распределения различают атрибутивные и вариационные ряды.

Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, т.е. конкретное значение варьирующего признака.

Частотами – называют численность отдельных вариантов или каждой группы вариационного ряда, т.е. это число, которое показывает, как часто встречаются те или иные варианты в ряду распределения.

Сумма всех частот определяет численность всей совокупности или ее объем. Вариационные ряды состоят из двух элементов: вариантов и частот. Частоты выражены в долях единиц или в процентах к итогу (называются частостями). Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают дискретные и интервальные ряды.

Дискретные ряды характеризуют распределение единиц совокупности по дискретному признаку, принимающему только фиксированное значение, чаще всего целое.

Интервальные вариационные ряды – это ряды, в которых значения вариант даны в виде интервалов.

Графически дискретные ряды представляются в виде полигона распределения. Интервальные ряды – в виде гистограммы распределения.

Статистические таблицы

Результаты сводки и группировки материалов наблюдения, как правило, представляются в виде статистических таблиц. Это наиболее рациональная форма представления результатов сводки. Значение статистических таблиц состоит в том, что они позволяют охватить материалы статистической сводки в целом.

По внешнему виду статистические таблицы представляют собой ряд пересекающихся вертикальных и горизонтальных линий. По вертикали – строки, по горизонтали – столбцы.

Составленную, но не заполненную таблицу, называют макет таблицы. Статистическая таблица состоит из двух элементов: подлежащего и сказуемого. Подлежащее – объект изучения – единицы совокупности, которые характеризуются числовыми показателями. Сказуемое – перечень числовых показателей, которыми характеризуется объект изучения, т.е. подлежащее таблицы.

Наименование единиц или групп, образующих подлежащее, дается в левой части таблицы в заголовках строк, а наименование показателей, которые они характеризуют, т.е. сказуемое, в верхней части таблицы в заголовках граф.

В зависимости от построения подлежащее статистической таблицы подразделяется на три вида:

1. Простые

2. Групповые

3. Комбинационные

1) Простые – в подлежащем которых нет группировок. По характеру представленного материала простые таблицы бывают:

· перечневые;

· территориальные;

· хронологические.

2) Групповые – в которых изучаемый объект разделен в подлежащем на группы по тому или иному признаку.

3) Комбинационные – таблицы, в подлежащем которых дана группировка единиц совокупности по двум или более признакам, взятым в комбинации.

Когда в сказуемом несколько показателей, разработка сказуемого может быть простой и сложной. Простая разработка сказуемого предусматривает параллельное расположение показателей, а сложное комбинированное.

Статистические графики

Полученный в результате разработки статистический материал, расположенный в таблицах, часто нуждается в наглядном изображении с помощью построения статистических графиков.

Графиком в статистике называют наглядное изображение статистических данных при помощи геометрических линий и фигур или географических карт-схем (картограмма).

В каждом графике различают следующие элементы:

1. Графический образ – основа графика – геометрические знаки, совокупность точек, линий, фигур, с помощью которых изображается статистическая информация.

2. Полиграфика – то место, где располагается графический образ.

3. Пространственные ориентиры – составляются с помощью системы координат.

4. Масштабные ориентиры – зависят от масштаба и масштабности графика.

5. Эксплуатация графика – это название и соответствующие поля отдельных его частей.

В зависимости от применения геометрических знаков, графики различаются на точечные, линейные, полосовые, квадратные и круговые. Графики бывают в виде негеометрических фигур, они называются фигурными.

Статистические графики по способу построения и задачам делятся:

1. Диаграммы:

a) сравнения;

b) динамики;

c) структурные.

2. Статистические карты:

a) картограммы;

b) картодиаграммы.

Диаграмма – наиболее распространенный способ графических изображений, применяется для наглядного сопоставления различных друг от друга величин.

Диаграмма – это график количественных отношений.

Статистические карты – это графики количественного распределения по поверхности. По своей основной цели они близки к диаграммам, но отличаются тем, что представляют собой условные изображения статистических данных на контурной географической карте.

Статистические карты показывают пространственное размещение или пространственную распространенность статистических данных.

1. К статистическим картам относят картограммы – это схематическая карта или план местности, на которой отдельные территории, в зависимости от величины изображаемого показателя, обозначаются с помощью графических символов.

2. Картодиаграммы – сочетание картограммы с диаграммой.

В специальных случаях, когда нужно изобразить какой-либо статистический показатель, который получают путем перемножения двух других величин, и они должны быть изображены на графике, используют специальные графические знаки, их называют знаками Варзаля.


Похожая информация.


Введение

С незапамятных времен человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов и связанные с ним вычисления. Люди получали разносторонние, хотя и различающиеся полнотой на различных этапах общественного развития. Данные, учитывавшиеся повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне при определении русла экономической и социальной политики и характера внешнеполитической деятельности.

Руководствуясь соображениями зависимости благосостояния нации от величины создаваемого полезного продукта, интересов стратегической безопасности государств и народов от численности взрослого мужского населения, доходов казны от размера налогооблагаемых ресурсов и т. д., издавна отчетливо осознавалась и реализовывалась в форме различных учетных акций.

С учетом достижений экономической науки стал возможен расчет показателей, обобщенно характеризующих результаты воспроизводственного процесса на уровне общества: совокупного общественного продукта, национального дохода, валового национального продукта.

Всю перечисленную информацию в постоянно возрастающих объемах предоставляет обществу статистика, являющаяся необходимо принадлежностью государственного аппарата. Статистические данные, таким образом, способны сказать языком статистических показателей о многом в весьма яркой и убедительной форме.

Для статистического анализа данных в своей работе я использовала программу Excel (расчет формул и построение графиков).

Статистические ряды распределения, их значение и применение в статистике

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения. В них известна численность единиц наблюдения в группах. Представленная в абсолютном и относительном выражении.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Статистические ряды подразделяются на:

Атрибутивные - это ряды, построенные по атрибутивным признакам, в порядке возрастания или убывания наблюдаемых знаний.

То есть качественным признакам, не имеющим числового выражения и характеризующим свойство, качество изучаемого социально-экономического явления.

Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам.

Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Число групп атрибутивного ряда распределения адекватно числу градаций. Разновидностей атрибутивного признака.

Пример атрибутивного ряда распределения приведен в таблице 1.

Таблица 1. Распределение студентов 1-го курса по успеваемости

Элементами данного ряда распределения являются градации атрибутивного признака «Успеваемость» («успевают» - «не успевают») и численность каждой группы в абсолютном (человек) и относительном (%) выражении.

Студентов, сдавших экзамен по дисциплине, было 46 человек. Их удельный вес составил 92%.

Вариационные - это ряды, построенные по количественному признаку.

Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

Варианты - это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные - это прибыль, а отрицательные числа - это убыток.

Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

Частости - это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Дискретный вариационный ряд распределения - это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

Пример дискретного вариационного ряда распределения приведен в таблице 2.

Таблица 2. Распределение студентов по экзаменационному баллу

В гр. 1 таблицы 2 представлены варианты дискретного вариационного ряда. В гр. 2 - частоты, а в гр. 3 - частости. В случае непрерывной вариации величина признака у единиц совокупности может принимать в определенным пределах любые значения. Отличающиеся друг от друга на сколь угодно малую величину.

Интервальный вариационный ряд распределения - это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

Правила и принципы построения интервальных рядов распределения аналогичны правилам и принципам построения статистических группировок. В случае, если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. При построении неравных интервалов нельзя получить информацию о степени заполнения каждого интервала. С целью проведения сравнительного анализа заполненности интервалов определяется показатель, характеризующий плотность распределения. Это отношение числа единиц совокупности к ширине интервала.

Пример интервального вариационного рада распределения приведен в таблице 3.

Таблица 3. Распределение строительных фирм региона по среднесписочной численности работающих*

* - Цифры условные

Представленный ряд распределения является интервальным, в основании образования групп которого лежит непрерывный признак.

Анализ рядов распределения можно для наглядности проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения.

Расчетная часть задания № 5

Имеются выборочные данные (выборка 5%-я механическая) о среднегодовой стоимости основных производственных фондов и выпуске продукции предприятий отрасли экономики за отчетный период.

Таблица 4. Исходные данные

Выпуск продукции, млн. руб.

По исходным данным:

1. Постройте статистический ряд распределения предприятий по среднегодовой стоимости основных производственных фондов, образовав четыре группы предприятий с равными интервалами, охарактеризовав их числом предприятий и удельным весом предприятий.

2. Рассчитайте обобщающие показатели ряда распределения:

а) среднегодовую стоимость основных производственных фондов, взвешивая значения признака по абсолютной численности предприятий и их удельному весу;

б) моду и медиану;

в) постройте графики ряда распределения и определите на них значение моды и медианы.

Решение:

1. Сначала определяем длину интервала по формуле:

е=(х max - x min)/k,

где k - число групп в группировке (из условия k=4),

х max и x min - максимальное и минимальное значения ряда распределения,

е=(60 - 20)/4=10 млн. руб.

Затем определим нижнюю и верхнюю интервальные границы для каждой группы:

Номер группы

нижняя граница

верхняя граница

Составим рабочую таблицу 5, куда сведем исходные данные:

Таблица 5. Рабочая таблица

Группы пред-ий по среднегодовой стоимости ОПФ,

№ предпри-ятия

Среднегодовая стоимость ОПФ, млн. руб.

Выпуск продукции,

Рассчитаем характеристику ряда распределения по удельному весу предприятий по формуле:

где d - удельный вес предприятия;

f i - кол-во предприятий в группе;

F i - общее кол-во предприятий.

Подставляем данные в формулы. Полученные результаты заносим в итоговую таблицу 6.

Все формулы и расчеты таблицы 6 введены в программе Excel и даны в Приложении 1.

Таблица 6. Распределения предприятий по среднегодовой стоимости основных производственных фондов

Данная группировка показывает, что у наибольшей части данных предприятий (33,3%) среднегодовая стоимость основных производственных фондов составляет от 40 до 50 млн. руб.

2. а) Рассчитаем среднегодовую стоимость основных производственных фондов по формуле средней арифметической взвешенной, взвешивая значения по абсолютной численности предприятий:

и по удельному весу:

Для расчета средней из интервального ряда необходимо выразить варианты одним (дискретным) числом, это средняя арифметическая простая из верхнего и нижнего значений интервала:

Подставляем данные в формулы. Полученные результаты занесем в таблицу 7.

Все формулы и расчеты таблицы 7 введены в программе Excel и даны в Приложении 1.

Таблица 7. Расчет среднегодовой стоимости ОПФ

Показатели средних равны, что доказывает правильность расчетов. Среднегодовая стоимость ОПФ равна 41,333 млн. руб.

б) Рассчитаем моду и медиану данного ряда.

Мода - это значение признака, наиболее часто встречающееся в изучаемой совокупности. Для интервальных вариационных рядов распределения мода рассчитывается по формуле:

где x Mo - нижняя граница модального интервала;

i Mo - величина модального интервала;

f Mo - частота модального интервала;

f Mo-1 - частота интервала, предшествующего модальному;

f Mo+1 - частота интервала, следующего за модальным.

Первоначально по наибольшей частоте признака определим модальный интервал. Наибольшее число предприятий - 10 - среднегодовая стоимость основных производственных фондов в интервале 40 - 50 млн. руб., который и является модальным.

Подставляем данные в формулу.

Из расчета видно, что модальным значением стоимости ОПФ предприятий является стоимость равная 44 млн. руб.

Медиана - это вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части. Для интервальных вариационных рядов медиана рассчитывается по формуле:

где x Mе - нижняя граница медианного интервала;

i Mе - величина медианного интервала;

F - сумма частот ряда;

S Mе-1 - сумма накопленных частот ряда, предшествующих медианному интервалу;

f Mе - частота медианного интервала.

Определяем медианный интервал, в котором находится порядковый номер медианы. Для этого подсчитаем сумму частот накопленным итогом до числа, превышающего половину объема совокупности (30/2 = 15). Полученные данные заносим в расчетную таблицу 8.

Таблица 8. Расчет медианны

В графе «Сумма накопленных частот» значение 23 соответствует интервалу 40 - 50. Это и есть медианный интервал, в котором находится медиана.

Подставляем данные в формулу.

Из расчета видно, что у половины предприятий среднегодовая стоимость основных производственных фондов до 42 млн. руб., а у другой половина - выше этой суммы.

в) Построим графики данного ряда распределения по полученным данным:

Рис. 1.

Медиана

Рис. 2. Кумулята распределения предприятий по среднегодовой стоимости ОПФ

Особую форму группировки данных представляют так называемые статистические ряды, или числовые значения признака, расположенного в определенном порядке. В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики, регрессии, ряды ранжированных значений признаков и ряды накопленных частот. Наиболее часто в психологии используются вариационные ряды, ряды регрессии и ряды ранжированных значений признаков.

Вариационным рядом распределения называют двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной выборке. Например, психолог провел тестирование интеллекта по тесту Векслера у 25 школьников, и сырые баллы по второму субтесту оказались следующими: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 9, 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 10, 9, 11. Как видим, некоторые цифры попадаются в данном ряду по несколько раз. Следовательно, учитывая число повторений, данные ряд можно представить в более удобной, компактной форме:

Это и есть вариационный ряд. Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами, или весами, вариант. Они обозначаются строчной буквой латинского алфавита.f i и имеют индекс “i”, соответствующий номеру переменной в вариационном ряду.

Процентное представление частот полезно в тех случаях, когда приходится сравнивать вариационные ряды, сильно различающиеся по объемам. Например, при тестировании школьной готовности детей города, поселка городского типа и села были обследованы выборки детей численностью 1000, 300 и 100 человека соответственно. Различие в объемах выборок очевидно. Поэтому сравнение результатов тестирования лучше проводить, используя проценты частот.

Приведенный выше ряд (3.1) можно представить по другому. Если элементы ряда расположить в возрастающем порядке, то получится так называемый ранжированный вариационный ряд:

Подобная форма представления (3.3) более предпочтительна, чем (3.1), поскольку лучше иллюстрирует закономерность варьирования признака.

Частоты, характеризующие ранжированный вариационный ряд, можно складывать, или накапливать. Накопленные частоты получаются последовательным суммированием значений частот от первой частоты до последней.

В качестве примера вновь обратимся к ряду 3.3. Преобразуем его в ряд 3.4 в котором введем дополнительную строчку и назовем ее «кумуляты частот»:

Рассмотрим подробно как получилась последняя строчка. В начале ряда частот стоит 1. В кумулятивном ряду на втором месте стоит 2 - это сумма первой и второй частоты, т.е. 1 + 1, на третьем месте стоит 4 это сумма второй (уже накопленной частоты) и третьей частоты, т.е. 2 + 2, на четвертом 8 = 4 + 4 и т.д.


Размах (иногда эту величину называют разбросом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т.е.

Понятно, что чем сильнее варьирует измеряемый признак, тем больше величина R, и наоборот.

Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный. Например, даны две выборки:

При равенстве средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы более четко представлять характер варьирования выборок, следует обратиться к их распределениям.

Таблицы и графики распределения частот

Как правило, анализ данных начинается с изучения того, как часто встречаются те или иные значения интересующего исследователя признака (переменной) в имеющемся множестве наблюдений. Для этого строятся таблицы и графики распределения частот. Нередко они являются основой для получения ценных содержательных выводов исследования.

Если признак принимает всего лишь несколько возможных значений (до 10-15), то таблица распределения частот показывает частоту встречаемости каждого значения признака. Если указывается, сколько раз встречается каждое значение признака, то это - таблица абсолютных частот распределения, если указывается доля наблюдений, приходящихся на то или иное значение признака, то говорят об относительных частотах распределения.

Во многих случаях признак может принимать множество различных значений, например, если мы измеряем время решения тестовой задачи. В этом случае о распределении признака позволяет судить таблица сгруппированных частот, в которых частоты группируются по разрядам или интервалам значений признака.

Еще одной разновидностью таблиц распределения являются таблицы распределения накопленных частот. Они показывают, как накапливаются частоты по мере возрастания значений признака. Напротив каждого значения (интервала) указывается сумма частот встречаемости всех тех наблюдений, величина признака у которых не превышает данного значения (меньше верхней границы данного интервала). Накопленные частоты содержатся в правых столбцах табл. 3.2 и 3.3.

Для более наглядного представления строится график распределения частот или график накопленных частот - гистограмма или сглаженная кривая распределения.

Гистограмма распределения частот - это столбиковая диаграмма, каждый столбец которой опирается на конкретное значение признака или разрядный интервал (для сгруппированных частот). Высота столбика пропорциональна частоте встречаемости соответствующего значения. На рис. 3.1 изображена гистограмма распределения частот для примера из табл. 3.2.

Гистограмма накошенных частот отличается от гистограммы распределения тем, что высота каждого столбика пропорциональна частоте, накопленной к данному значению (интервалу). На рис. 3.2 изображена гистограмма накопленных частот для данных табл. 3.2.

Построение полигона распределения частот напоминает построение гистограммы. В гистограмме вершина каждого столбца, соответствующая частоте встречаемости данного значения (интервала) признака, - отрезок прямой. А для полигона отмечается точка, соответствующая середине этого отрезка. Далее все точки соединяются ломаной линией (рис. 3.3). Вместо гистограммы или полигона часто изображают сглаженную кривую распределения частот. На рис. 3.4 изображена гистограмма распределения для примера из табл. 3.3 (столбики) и сглаженная кривая того же распределения частот.

Таблицы и графики распределения частот дают важную предварительную информацию о форме распределения признака: о том, какие значения встречаются реже, а какие чаще, насколько выражена изменчивость признака. Обычно выделяют следующие типичные формы распределения. Равномерное распределение – когда все значения встречаются одинаково (или почти одинаково) часто. Симметричное распределение - когда одинаково часто встречаются крайние значения. Нормальное распределение - симметричное распределение, у которого крайние значения встречаются редко и частота постепенно повышается от крайних к серединным значениям признака. Асимметричные распределения - левосторонние (с преобладанием частот малых значений), правосторонние (с преобладанием частот больших значений).

Уже сами по себе таблицы и графики распределения признака позволяют делать некоторые содержательные выводы при сравнении групп испытуемых между собой. Сравнивая распределения, мы можем не только судить о том, какие значения встречаются чаще в той или иной группе, но и сравнивать группы по степени выраженности индивидуальных различий - изменчивости по данному признаку.

Таблицы и графики накопленных частот позволяют быстро получить дополнительную информацию о том, сколько испытуемых (или какая их доля) имеют выраженность признака не выше определенного значения.

Раздел 4. Описательные статистики
(Статистическое распределение и его числовые характеристики)

Переменная может принимать много значений. На начальном этапе обработки данных вместо того, чтобы рассматривать все значения переменной, рекомендуется проанализировать т. к. описательные статистики. Они дают общее представление о значениях или разбросе значений, которые принимает переменная.

К первичным описательным статистикам (Descriptive Statistics) обычно относят числовые характеристики распределения измеренного на выборке признака. Каждая такая характеристика отражает в одном числовом значении свойство распределения множества результатов измерения: с точки зрения их расположения на числовой оси либо с точки зрения их изменчивости. Основное назначение каждой из первичных описательных статистик - замена множества значений признака, измеренного на выборке, одним числом (например, средним значением как мерой центральной тенденции). Компактное описание группы при помощи первичных статистик позволяет интерпретировать результаты измерений, в частности, путем сравнения первичных статистик разных групп.

Ряд распределения в статистике - это простейшая группировка, представляющая собой упорядоченное распределение единиц совокупности на группы по изучаемому варьирующему признаку.

По характеру изучаемого признака ряды подразделяются на атрибутивные (когда варьирующий признак качественный, т.е. не имеет количественного выражения) и вариационные (если изучаемый признак измеряется количественно).

В каждом ряду распределения выделяют два основных элемента:

Варианты - конкретные значения признака;

Частоты - числа, показывающие, как часто встречаются данные варианты.

Если варианты представлены целыми значениями признака, то такие вариационные ряды распределения называются дискретными , а если варианты представлены числовыми интервалами, то такие ряды называются интервальными .

Ряды распределения дополняются частостями и накопленными (кумулятивными) частотами.

Частость - относительная частота, определяемая отношением числа единиц групп к общему объему совокупности.

Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше данного значения. Определяется последовательным прибавлением к частоте в первом интервале последующих частот ряда.

Величина интервала группировки интервального вариационного ряда определяется по формуле

где - максимальное значение признака, - минимальное значение признака, - число выделяемых групп.

При решении вопроса о том, сколько следует образовать групп, нужно принимать во внимание размах варьирования и численность единиц изучаемой совокупности. Чем больше размах варьирования признака, положенного в основу группировки, тем, как правило, больше может быть образовано групп.

Зависимость между числом групп и численностью единиц совокупности n можно выразить формулой американского ученого Стерджесса:

Эта зависимость может служить ориентировкой при определении числа групп в том случае, когда распределение единиц совокупности по данному признаку приближается к нормальному.

Если, например, требуется произвести группировку с равными интервалами по данным о стоимости основных фондов предприятий, максимальное значение которой составляет 7 млн. руб., минимальная - 1 млн. руб. и необходимо выделить при этом 4 группы, то величина интервала определяется следующим образом

В нашем примере группировка с равными интервалами примет такой вид

При такой записи следует помнить правило, что левая цифра включает в себя обозначенное значение, а правая не включает. Следовательно, предприятия с основными фондами 2,5 млн. руб. должно быть отнесено ко второй группе.

Проиллюстрируем построение ряда распределения на условном примере.

Пример 2.1 . Имеются следующие данные о производственном стаже работников малого предприятия, лет.

9, 3, 7, 2, 5, 3, 11, 6, 5, 4, 7

Необходимо построить ряд распределения работников по стажу, обработав 3 группы с равными интервалами.

Величина интервала группировки работников по стажу определяется по формуле

Тогда интервалы будут следующими:

2 - 5, 5 - 8, 8 - 11

Подсчитаем частоты и представим результаты в таблице, которую дополним частостями и кумулятивными частотами

Таблица 2.1. Ряд распределения работников по производственному стажу

Ряды распределения для наглядности и удобства анализа могут быть изображены графически. Основные виды графиков рядов распределения: полигон частот (Рис. 1), гистограмма (Рис. 2), кумулята (Рис. 3).

Для изображения построенного интервального ряда работников по производственному стажу в виде полигона частот следует превратить его в дискретный ряд. Для этого определить середины (центры) интервалов -

(3, 5; 6,5; 9,5). Из этих середин восстановить перпендикуляры равные частотам и соединить их вершины отрезками.

При построении гистограммы ряда распределения работников по стажу работы на оси абсцисс откладывают интервалы ряда, высота которых равна частотам отложенным по оси ординат. Над осью абсцисс строятся прямоугольники, площадь которых соответствует величинам произведений интервалов на их частоты.

Рис. 2.

При графическом изображении кумуляты накопленные частоты наносят на поле графика в виде перпендикуляров к оси абсцисс в верхних границах интервалов, а именно 5, 8, 11. Перпендикуляры затем соединяют отрезками, в результате чего получают ломаную линию, которая начинается от нуля все время возрастает, до тех пор, пока не достигнет высоты, равной общей сумме частот.


Рис. 3.

Анализ ряда и графиков показывает, что распределение работников по стажу не является равномерным, чем больше стаж работников отличается от среднего стажа, тем реже такие работники встречаются.

Обобщение первичных данных в виде ряда распределения позволяет видеть вариацию и состав совокупности по изучаемому признаку, сравнивать между собой группы, изучать их динамику и устанавливать характер распределения единиц по тому или иному признаку.

Однако ряды распределения не дают всесторонней характеристики выделенных групп. Чтобы решить ряд конкретных задач, выявить особенности в развитии явлений, обнаружить тенденции, установить зависимости, необходимо произвести группировку статистических данных.

Как осуществляется конкретная группировка рассмотрим в следующем вопросе.