Однофакторный дисперсионный анализ фишера. Однофакторный дисперсионный анализ

Дисперсионный анализ используется для выявления влияния на изучаемый показатель некоторых факторов, обычно не поддающихся количественному измерению. Суть метода состоит в разложении общей вариации изучаемого показателя на части, соответствующие раздельному и совместному влиянию факторов, и статистическом изучении этих частей с целью выяснения приемлемости гипотез об отсутствии этих влияний. Модели дисперсионного анализа в зависимости от числа факторов классифицируются на однофакторные , двухфакторные и т.д. По цели исследования выделяют следующие модели: детерминированная (Ml) - здесь уровни всех факторов заранее фиксированы, и проверяют именно их влияние, случайная (М2) - здесь уровни каждого фактора получены как случайная выборка из генеральной совокупности уровней фактора, и смешанная (М3) - здесь уровни одних факторов заранее фиксированы, а уровни других - случайная выборка.

Однофакторный дисперсионный анализ

В основе однофакторного дисперсионного анализа лежит следующая вероятностная модель:

где - значение случайной величины У, принимаемое при уровне Д (,) , / =

1,2,..., v, фактора Л в &-м наблюдении, к = 1,2, ..., п,;

О 1 " 1 - эффект влияния на УГ уровня Д®;

е® - независимые случайные величины, отражающие влияние на У/"* неконтролируемых остаточных факторов, причем все е* 1 ~ N( 0, o R).

При этом в модели Ml все 0 (,) - детерминированные величины

и?е ("Ч = 0 ; а в модели М2 0 (,) - случайные величины (значения слу-

чайного эффекта 0), 0® = 0 где 0 - ;V(0, ст в), и все 0® и е* ’ - независимы.

Найдем общую вариацию S 2 результативного признака У и две ее составляющие - S 2 A и S R , отражающие соответственно влияние фактора А и влияние остаточных факторов:

Нетрудно убедиться в том, что S 2 = S 2 A + . Разделив все части

этого равенства на я, получим:

Это правило читается так: «Общая дисперсия наблюдений равна сумме межгрупповой дисперсии (это дисперсия Су (0 групповых средних) и внутригрупповой дисперсии (это средняя а 2 из групповых дисперсий)».

Для выяснения того, влияет ли фактор А на результативный признак:

  • ? в модели Ml проверяют гипотезу Н 0 : 0 (|) = 0 (2) = ... = 0 (v) =0 (если она будет принята, то для всех ink математическое ожидание МУ/"* = А/У [см. формулу (8.4.1)], а это означает, что при изменении уровня фактора групповая генеральная средняя не изменяется, т.е. рассматриваемые уровни фактора А не влияют на У;
  • ? в модели М2 проверяют гипотезу Н 0 = 0 (ее принятие означает что эффект 0 - постоянная величина, а с учетом условия М0 = 0 получим, что 0 = 0, т.е. фактор А не влияет на У).

Критерии проверки этих и других гипотез, а также оценки параметров модели (8.4.1) приведены в табл. 8.5.

Задача 8.7. Исследователь хочет выяснить, отличаются ли четыре способа рекламирования товара по влиянию на объем его продажи. Для этого в каждом из четырех однотипных городов (в них использовались различные способы рекламы) были собраны сведения об объемах продажи товара (в денежных единицах) в четырех случайно отобранных магазинах и вычислены соответствующие выборочные характеристики:

Решение. Здесь фактором А является способ рекламы; зафиксированы четыре его уровня, и выясняется, различаются ли по своему влиянию именно эти уровни, - это модель Ml однофакторного анализа.

где е** независимый?** N(0,g r).

Так как MY и все 0 (,) - постоянные величины, то при выполнении (8.4.3) наблюдения независимы и все

Допустим, что независимость наблюдений гарантируется организацией эксперимента; условие же (8.4.4) означает, что объем продаж при г"-м способе рекламы имеет нормальный закон распределения с математическим ожиданием а, = MY + 0 (,) и с дисперсией, одинаковой для всех способов. Допустим, что нормальное распределение имеет место. Используя критерий Бартлетта (см. табл. 8.3), убедимся, что результаты испытаний позволяют принять гипотезу Н"п : о? =... = ol. Вычислим


по табл. П. 6.3 при k=v-l=3np=a= 0,05 найдем % 2 а = Ха = 7,82 ; так как 1,538 Н" 0 принимаем.

Теперь проверим ключевую гипотезу дисперсионного анализа Н 0 : 0 м =... = 0 S 2 A = 220,19, S 2 R =39,27, S" 2 = 259,46; убедившись в справедливости равенства (8.4.2), найдем оценку (8.4.5) (см. табл. 8.5) s 2 = 39,27/12 = 3,27 дисперсии а 2 к ; проверим, выполняется ли неравенство (8.4.6) (см. табл. 8.5):

по табл. П. 6.4 при = 3, к 2 = 12 и р = а = 0,05 найдем F 2a = F a = 3,49 . Так как 22,43 > 3,49, неравенство (8.4.6) выполняется. Поэтому гипотезу

Условия и критерии проверки гипотез однофакторного дисперсионного анализа

Н 0: 0 (|) = ... = 0 (4) = 0 отклоняем: считаем, что зафиксированные способы рекламирования продукции влияют на объем продаж; при этом вли-

= 84,9% вариации объема продаж.

Изменим условие задачи. Предположим, что способы рекламирования товара заранее нс фиксированы, а выбраны случайным образом из всего набора способов. Тогда выяснение вопроса о том, влияет или нет способ рекламирования, сводится к проверке гипотезы Н 0: Og = 0 модели М2. Критерий ее проверки такой же, как и в модели Ml. Так как условие (8.4.6) отклонения гипотезы Н 0: о 2 в = 0 выполняется, гипотезу забраковываем, по крайней мере до получения дополнительных данных: считаем, что способ рекламирования товаров (во всем наборе этих способов) влияет на объем продаж.

Двухфакторный дисперсионный анализ

(с одинаковым числом т > 1 наблюдений при различных сочетаниях уровней факторов)

В основе двухфакторного дисперсионного анализа лежит следующая вероятностная модель:

где У/ 1 ’ 7) значение случайной величины У, принимаемое при уровне А (" i = 1,2, ..., v A , фактора А и уровне 5®, у =1,2, ..., v B , фактора В в к -м наблюдении, к = 1,2, ..., /и; 0^, 0 (й у) , 0^д у) - эффекты влияния на У/ 1 ’ соответственно уровней А (" 5® и взаимодействия А (0 и B ; - независимые случайные величины, отражающие влияние на У/ 1 ’ у) неконтролируемых остаточных факторов, причем е?’ л ~ /V((), а л).

Найдем общую вариацию S 2 признака У и ее четыре составляющие - S 2 a , S 2 B , S 2 ab , S 2 r , отражающие влияние соответственно факторов А, В, их взаимодействия и остаточных факторов:


Нетрудно убедится в том, что S 2 = + S 2 B + S 2 iB + S B .

Оценки параметров всех трех типов модели (8.4.9): Ml, М2 и М3, проверяемые гипотезы и критерии их проверки приведены в табл. 8.6. В моделях М2 и М3 предполагается, что все случайные эффекты независимы как между собой, так и с e^’ J) .

Чтобы проанализировать изменчивость признака под воздействием контролируемых переменных, применяется дисперсионный метод.

Для изучения связи между значениями – факторный метод. Рассмотрим подробнее аналитические инструменты: факторный, дисперсионный и двухфакторный дисперсионный метод оценки изменчивости.

Дисперсионный анализ в Excel

Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:

  • 1 – определенную действием каждого из изучаемых значений;
  • 2 – продиктованную взаимосвязью между исследуемыми значениями;
  • 3 – случайную, продиктованную всеми неучтенными обстоятельствами.

В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» - «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа .

Работа начинается с оформления таблицы. Правила:

  1. В каждом столбце должны быть значения одного исследуемого фактора.
  2. Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.

Рассмотрим дисперсионный анализ в Excel на примере.

Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).

Внесем данные в таблицу Excel:


Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.



Факторный анализ в Excel: пример

Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:

  • всесторонне описать измеряемый объект (причем емко, компактно);
  • выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
  • классифицировать переменные (определить взаимосвязи между ними);
  • сократить число необходимых переменных.

Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.



Теперь наглядно видно, продажи какого товара дают основной рост.

Двухфакторный дисперсионный анализ в Excel

Показывает, как влияет два фактора на изменение значения случайной величины. Рассмотрим двухфакторный дисперсионный анализ в Excel на примере.

Задача. Группе мужчин и женщин предъявляли звук разной громкости: 1 – 10 дБ, 2 – 30 дБ, 3 – 50 дБ. Время ответа фиксировали в миллисекундах. Необходимо определить, влияет ли пол на реакцию; влияет ли громкость на реакцию.

Однофакторная дисперсионная модель имеет вид

где Xjj - значение исследуемой переменной, полученной на г-м уровне фактора (г = 1, 2,..., т) су-м порядковым номером (j- 1,2,..., п); /у - эффект, обусловленный влиянием г-го уровня фактора; е^. - случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменной внутри отдельного уровня.

Под уровнем фактора понимается некоторая его мера или состояние, например, количество вносимых удобрений, вид плавки металла или номер партии деталей и т.п.

Основные предпосылки дисперсионного анализа.

1. Математическое ожидание возмущения ? (/ - равно нулю для любых i, т.е.

  • 2. Возмущения взаимно независимы.
  • 3. Дисперсия возмущения (или переменной Ху) постоянна для любых ij> т.е.

4. Возмущение е# (или переменная Ху) имеет нормальный закон распределения N( 0; а 2).

Влияние уровней фактора может быть как фиксированным , или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании; если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие - фиксированные.

Рассмотрим эту задачу подробнее. Пусть имеется т партий изделий. Из каждой партии отобрано соответственно п Л, п 2 ,п т изделий (для простоты полагаем, что щ = п 2 =... = п т = п). Значения показателя качества этих изделий представим в виде матрицы наблюдений


Необходимо проверить существенность влияния партий изделий на их качество.

Если полагать, что элементы строк матрицы наблюдений - это численные значения (реализации) случайных величин X t , Х 2 ,..., Х т, выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно a v а 2 , ..., а т и одинаковыми дисперсиями а 2 , то данная задача сводится к проверке нулевой гипотезы # 0: a v = a 2l = ... = а т,осуществляемой в дисперсионном анализе.

Обозначим усреднение по какому-либо индексу звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий г’-й партии, или групповая средняя для г-го уровня фактора, примет вид

а общая средняя -

Рассмотрим сумму квадратов отклонений наблюдений от общей средней х„:

или Q = Q, + Q 2 + ?>з Последнее слагаемое

так как сумма отклонений значений переменной от ее средней, т.е. ? 1.г у - х) равна нулю. ) =х

Первое слагаемое можно записать в виде

В результате получим следующее тождество:

т п. _

где Q = Y, X [ х ij _ х„, I 2 - общая, или полная, сумма квадратов отклонений; 7=1

Q, - n^, где к 1; к (п -1) - степени свободы ^ -распределение, 5 и я 7] - ^ -критерий Фишера. Пример 6.1. Двести предположение о том, что фактор скорости предъявления слов влияет на показатели их воспроизведения (данные в таблице рис. 8.1). Последовательность решения:

o Формулировка гипотез.

Н 0: фактор скорости не более выраженным, чем случайным; Н 1: фактор скорости более выраженным, чем случайным.

o Проверка предположений: исследуемый параметр нормальный распределение; выборки несвязанные одинаковых объемов; измерения по шкале отношений.

o Определение эмпирического критерия Г ЭМП базируется на сопоставлении квадратов сумм по столбцам с суммой квадратов всех эмпирических значений. Каждый столбец представляет выборку и соответствует определенной градации фактора скорости.

o Введенные обозначения:

п = 6 - количество наблюдений (строк)

к = 3 - количество факторов (столбиков)

пк = 6-3 = 18 - общее количество индивидуальных значений;

7 - индекс строк изменяется от 1 до п (7 = 1, 2, ..., п)

и - индекс столбиков изменяется от 1 до к (и = 1, 2, ..., к).

o Математические расчеты (см. рис 6.1 6.2):

i = 1 7 = 1 п м кп ^ и = 1)

Есть 1 = 6 2 + семь 2 + 6 2 + 5 2 + _ + 5 2 + 5 2 = 432; и 2 = - (34 2 + +29 2 + 23 2) = 421;

и 3 ^^ (34 + 29 + 23) 2 = 410,89; 3 o 6

Рис. 6.1. Результаты Рис. 6.2. Расчетные формулы

дисперсионного анализа однофакторного дисперсионного анализа

o Критическое значение ^ кр можно получить с помощью функции

РРАСПОБР () для уровня значимости для а = 0,05 (0,01) и числа степеней свободы к 1 = 3-1 = 2 и к (п -1) = 3 (6-1) = 15. Г 0и05 ~ 3,68 и Г 0и01 ~ 6,36.

o Принятие решения. Поскольку ¥ ГМП> Р 0? 01 (6,89> 6,36), нулевая гипотеза Н 0 отклоняется на уровне значимости 0,01.

o Формулировка выводов. Различия в объеме воспроизведения слов (фактор скорости) более выраженными, чем случайным. Эту зависимость можно представить графически на рис. 6.3.

Рис. 6.3. Зависимость среднего объема воспроизведенных слов от скорости предъявления

Расчеты однофакторной модели можно провести с помощью пакета "Анализ данных" раздел "Однофакторный дисперсионный анализ" (рис. 6.4).

Рис. 6.4. Меню пакета "Анализ данных" После введения соответствующих параметров (рис. 6.5) можно получить результаты однофакторного дисперсионного анализа (рис. 6.6).

Рис. 6.5. Диалоговое окно

Рис. 6.6. Результаты однофакторного дисперсионного анализа (а = 0,05)

Компьютерный пакет "Анализ данных" выполняет расчеты основных статистик (суммы, средние, дисперсии, значение эмпирических и теоретических критериев и т.п.), что дает основания исследователю для статистических выводов.