Однофакторный дисперсионный анализ. Однофакторный дисперсионный анализ фишера

Введение

Цель работы: познакомится с таким статистическим методом, как дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.



Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы.

Дисперсионный анализ

1.1 Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Основными схемами организации исходных данных с двумя и более факторами являются:

Перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

Иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ /3/.

При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но несмотря на это, технику можно использовать.

При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия σ2. Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле:

,

где k - число групп;

nj - число единиц в j-ой группе;

Частная средняя по j-ой группе;

Общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия σj2.

.

Между общей дисперсией σ02, внутригрупповой дисперсией σ2 и межгрупповой дисперсией существует соотношение:

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе /2/.

Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

x ij = μ + F j + ε ij, (1)

где х ij – значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,т) c j-м порядковым номером (j=1,2,...,n);

F i – эффект, обусловленный влиянием i-го уровня фактора;

ε ij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.

Основные предпосылки дисперсионного анализа:

Математическое ожидание возмущения ε ij равно нулю для любых i, т.е.

M(ε ij) = 0; (2)

Возмущения ε ij взаимно независимы;

Дисперсия переменной x ij (или возмущения ε ij) постоянна для

любых i, j, т.е.

D(ε ij) = σ 2 ; (3)

Переменная x ij (или возмущение ε ij) имеет нормальный закон

распределения N(0;σ 2).

Влияние уровней фактора может быть как фиксированным или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании. Если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие – фиксированные.

Пусть имеется m партий изделий. Из каждой партии отобрано соответственно n 1 , n 2 , …, n m изделий (для простоты полагается, что n 1 =n 2 =...=n m =n). Значения показателя качества этих изделий представлены в матрице наблюдений:

x 11 x 12 … x 1n

x 21 x 22 … x 2n

………………… = (x ij), (i = 1,2, …, m; j = 1,2, …, n).

x m1 x m2 … x mn

Необходимо проверить существенность влияния партий изделий на их качество.

Если полагать, что элементы строк матрицы наблюдений – это численные значения случайных величин Х 1 ,Х 2 ,...,Х m , выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно a 1 ,а 2 ,...,а m и одинаковыми дисперсиями σ 2 , то данная задача сводится к проверке нулевой гипотезы Н 0: a 1 =a 2 =...= а m , осуществляемой в дисперсионном анализе.

Усреднение по какому-либо индексу обозначено звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий i-й партии, или групповая средняя для i-го уровня фактора, примет вид:

где i* – среднее значение по столбцам;

Ij – элемент матрицы наблюдений;

n – объем выборки.

А общая средняя:

(5)

Сумма квадратов отклонений наблюдений х ij от общей средней ** выглядит так:

2 = 2 + 2 +

2 2 . (6)

Q = Q 1 + Q 2 + Q 3 .

Последнее слагаемое равно нулю

так как сумма отклонений значений переменной от ее средней равна нулю, т.е.

2 =0.

Первое слагаемое можно записать в виде:

В результате получается тождество:

Q = Q 1 + Q 2 , (8)

где - общая, или полная, сумма квадратов отклонений;

- сумма квадратов отклонений групповых средних от общей средней, или межгрупповая (факторная) сумма квадратов отклонений;

- сумма квадратов отклонений наблюдений от групповых средних, или внутригрупповая (остаточная) сумма квадратов отклонений.

В разложении (8) заключена основная идея дисперсионного анализа. Применительно к рассматриваемой задаче равенство (8) показывает, что общая вариация показателя качества, измеренная суммой Q, складывается из двух компонент – Q 1 и Q 2 , характеризующих изменчивость этого показателя между партиями (Q 1) и изменчивость внутри партий (Q 2), характеризующих одинаковую для всех партий вариацию под воздействием неучтенных факторов.

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так называемые средние квадраты, являющиеся несмещенными оценками соответствующих дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее число степеней свободы.

Число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Поэтому для среднего квадрата s 1 2 , являющегося несмещенной оценкой межгрупповой дисперсии, число степеней свободы k 1 =m-1, так как при его расчете используются m групповых средних, связанных между собой одним уравнением (5). А для среднего квадрата s22, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы k2=mn-m, т.к. при ее расчете используются все mn наблюдений, связанных между собой m уравнениями (4).

Таким образом:

Если найти математические ожидания средних квадратов и , подставить в их формулы выражение xij (1) через параметры модели, то получится:

(9)

т.к. с учетом свойств математического ожидания

(10)

Для модели I с фиксированными уровнями фактора F i (i=1,2,...,m) – величины неслучайные, поэтому

M(S ) = 2 /(m-1) +σ 2 .

Гипотеза H 0 примет вид F i = F * (i = 1,2,...,m), т.е. влияние всех уровней фактора одно и то же. В случае справедливости этой гипотезы

M(S )= M(S )= σ 2 .

(12)

(13)

(14)

т.е. сами средние, вообще говоря, находить не обязательно.

Таким образом, процедура однофакторного дисперсионного анализа состоит в проверке гипотезы H 0 о том, что имеется одна группа однородных экспериментальных данных против альтернативы о том, что таких групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При этом дисперсии могут быть как известны, так и неизвестны заранее. Если имеются основания полагать, что известная или неизвестная дисперсия измерений одинакова по всей совокупности данных, то задача однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных /1/.

В данной теме будет рассмотрен только однофакторный дисперсионный анализ, используемый для несвязанных выборок. Оперируя как основным понятием дисперсии, этот анализ базируется на расчете дисперсий трех типов:

Общая дисперсия, вычисленная по всей совокупности экспериментальных данных;

Внутригрупповая дисперсия, характеризующая вариативность признака в каждой выборке;

Межгрупповая дисперсия, характеризующая вариативность групповых средних.

Основное положение дисперсионного анализа гласит: общая дисперсия равна сумме внутригрупповой и межгруппповой дисперсий.

Это положение можно записать в виде уравнения:

где х ij - значения всех переменных, полученных в эксперименте; при этом индекс j меняется от 1 до р , где р - число сравниваемых выборок, их может быть три и больше; индекс i соответствует числу элементов в выборке (их может быть два и больше);

Общая средняя всей анализируемой совокупности данных;

Средняя j выборки;

N - общее число всех элементов в анализируемой совокупности экспериментальных данных;

р - число экспериментальных выборок.

Проанализируем это уравнение более подробно.

Пусть у нас имеется р групп (выборок). В дисперсионном анализе каждую выборку представляют в виде одного столбца (или строки) чисел. Тогда, для того чтобы можно было указать на конкретную группу (выборку), вводится индекс j , который меняется соответственно от j = 1 до j = р. Например, если у нас 5 групп (выборок), то р=5, а индекс j меняется соответственно от j= 1 до j= 5.

Пусть перед нами стоит задача - указать конкретный элемент (значение измерения) какой-либо выборки. Для этого мы должны знать номер этой выборки, например 4, и расположение элемента (измеренного значения) в этой выборке. Этот элемент может располагаться в выборке начиная с первого значения (первая строчка) до последнего (последняя строчка). Пусть наш искомый элемент расположен на пятой строчке. Тогда его обо значение будет таково: х 54 . Это значит, что выбран пятый элемент в строчке из четвертой выборки.

В общем случае в каждой группе (выборке) число составляющих ее элементов может быть различным - поэтому обозначим число элементов в j группе (выборке) через n j . Полученные в эксперименте значения признака в j группе обозначим через х ij , где i = 1, 2, ... n - порядковый номер наблюдения в j группе.

Дальнейшие рассуждения целесообразно проводить с опорой на таблицу 35. Отметим, однако, что для удобства дальнейших рассуждений, выборки в этой таблице представлены не как столбцы, а как строчки (что, однако, не принципиально).

В итоговой, последней строке таблицы даны: общий объем всей выборки - N, сумма всех полученных значений G и общая средняя всей выборки . Эта общая средняя получена как сумма всех элементов анализируемой совокупности экспериментальных данных, обозначенная выше как G, деленная на число всех элементов N.


В крайнем правом столбце таблицы представлены величины средних по всем выборкам. Например, в j выборке (строчка таблицы обозначенная символом j) величина средней (по всей j выборке) такова:

Дисперсионный анализ - это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)- средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки - это те признаки, которые влияют на изучаемое явление.

Результативные признаки - это те признаки, которые изменяются под влиянием факторных признаков.

Условия применения дисперсионного анализа:

Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).

Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.

Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.

Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.

2. Независимость (не связанность) распределения наблюдений в группах.

3. Наличие частоты (повторность) наблюдений.

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

Doбщ. = Dфакт + D ост.,

Doбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

Dфакт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков - наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака - фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:

Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим величину 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различие между суммами квадратов.

SS ст.св. MS F p
Эффект 24.0 24.0 24.0 .008
Ошибка 4.0 1.0

Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).

В рассмотренном выше простом примере вы могли бы сразу вычислить t-критерий для независимых выборок. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа.

Однако, ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t-критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен.

Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол. Пусть каждая группа теперь состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы:

До проведения вычислений можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника:

1) случайная ошибка (внутригрупповая дисперсия),

2) изменчивость, связанная с принадлежностью к экспериментальной группе

3) изменчивость, обусловленная полом объектов наблюдения.

Отметим, что существует еще один возможный источник изменчивости - взаимодействие факторов, который мы обсудим позднее). Что произойдет, если мы не будем включать пол как фактор при проведении анализа и вычислим обычный t-критерий? Если мы будем вычислять суммы квадратов, игнорируя пол (т.е. объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии и получив при этом сумму квадратов для каждой группы равную SS =10 и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповая дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8).

Итак, при введении дополнительного фактора: пол, остаточная дисперсия уменьшилась. Это связано с тем, что среднее значение для мужчин меньше, чем среднее значение для женщин, и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия.

На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t-критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями других факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t-критерий.

Курсовая работа по математике

Введение

Понятие дисперсионного анализа

Однофакторный дисперсионный анализ (Практическая реализация в IBM SPSS Statistics 20)

Однофакторный дисперсионный анализ (Практическая реализация в Microsoft Office 2013)

Заключение

Список использованных источников

Введение

Актуальность темы. Развитие математической статистики начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса в 1795 году и до сих пор развивается. В статистическом анализе существует параметрический метод «Однофакторный дисперсионный анализ». В настоящее время его используют в экономике при проведении исследования рынка для сопоставимости результатов (например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы на сколько данные опроса отличаются или не отличаются друг от друга, в психологии при проведении различного рода исследований), при составлении научных тестов сравнения, или исследовании каких-либо социальных групп, ну и для решении задач по статистике.

Цель работы. Познакомится с таким статистическим методом, как однофакторный дисперсионный анализ, а так же с реализацией его на ПК в различных программах и выполнить сравнение этих программ.

Изучить теорию однофакторного дисперсионного анализа.

Изучить программы для решения задач на однофакторный анализ.

Провести сравнительный анализ данных программ.

Достижения работы: Практическая часть работы полностью проделана автором: подбор программ, подбор задач, их решение на ПК, после проведен сравнительный анализ. В теоритической части проведена классификация групп дисперсионного анализа. Данная работа была апробирована в качестве доклада на студенческой научной сессии «Избранные вопросы высшей математики и методики преподавании математики»

Структура и объём работы. Работа состоит из введения, заключения, содержания и списка литературы, включающего 4 наименования. Полный объём работы - 25 страниц печатного текста. Работа содержит 1 пример решенный 2 программами.

Понятие дисперсионного анализа

Часто возникает необходимость исследовать влияние одной или нескольких независимых переменных (факторов) на одну или несколько зависимых переменных (результативных признаков), подобные задачи можно решать методами дисперсионного анализа, автором которого является Р. Фишер.

Дисперсионный анализ ANOVA - совокупность статистических методов обработки данных, позволяющих анализировать изменчивость одного или нескольких результативных признаков под влиянием контролируемых факторов (независимых переменных) . Здесь под фактором понимается некоторая величина, определяющая свойства исследуемого объекта или системы, т.е. причина, влияющая на конечный результат. При проведении дисперсионного анализа важно правильно выбрать источник и объект влияния, т.е. определить зависимые и независимые переменные.

В зависимости от признаков классификации различают несколько классификационных групп дисперсионного анализа (табл. 1).

По количеству учитываемых факторов:Однофакторный анализ - исследуется влияние одного фактора;Многофакторный анализ - изучается одновременное воздействие двух или более факторов.По наличию связи между выборками значений:Анализ несвязанных (различных) выборок - проводится, когда имеется несколько групп объектов исследования, находящихся в разных условиях. (Проверяется нулевая гипотеза H0: среднее значение зависимой переменной одинаково в разных условиях замера, т.е. не зависит от исследуемого фактора.);Анализ связанных (одних и тех же) выборок - проводится для двух и более замеров, проведенных на одной и той же группе исследуемых объектов в разных условиях. Здесь возможно влияние неучтенного фактора, которое можно ошибочно приписать изменению условий.По количеству зависимых переменных, подверженных воздействию факторов.Одномерный анализ (АNOVA или АМСОVА - ковариационный анализ) - воздействию факторов подвержена одна зависимая переменная;Многомерный анализ (МАNОVА - многомерный дисперсионный анализ или МАNСОVА - многомерный ковариационный анализ) - воздействию факторов подвержено несколько зависимых переменных.По цели исследования.Детерминированные - уровни всех факторов заранее фиксированы и проверяется именно их влияние (проверяется гипотеза H0 об отсутствии различий между средними уровнями);Случайные - уровни каждого фактора получены как случайная выборка из генеральной совокупности уровней фактора (проверяется гипотеза Н0 о том, что дисперсия средних значений отклика, вычисленная для различных уровней фактора, не отлична от нуля);

В однофакторном дисперсионном анализе проводится проверка статистической значимости различий выборочных средних двух или более совокупностей для этого предварительно формируются гипотезы.

Нулевая гипотеза H0: средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы

Альтернативная гипотеза H1: средние величины результативного признака во всех условиях действия фактора различны.

Методы дисперсионного анализа могут применяться для нормально распределенных совокупностей (многомерные аналоги параметрических тестов) и для совокупностей, не имеющих определенных распределений (многомерные аналоги непараметрических тестов). В первом случае необходимо предварительно установить, что распределение результативного признака является нормальным. Для проверки нормальности распределения признака можно использовать показатели асимметрии A =, , и эксцесса E =, , где , . - значение результативного признака и его среднее значение; - среднеквадратическое отклонение результативного признака; .

Число наблюдений;

Ошибки репрезентативности для показателей A и E

Если показатели асимметрии и эксцесса не превышают более чем в 3 раза свои ошибки репрезентативности, т.е. А <3тА и Е <3тЕ, то распределение можно считать нормальным. Для нормальных распределений показатели А и Е равны нулю.

Данные, относящиеся к одному условию действия фактора (к одной градации), называют дисперсионным комплексом. При проведении дисперсионного анализа должно соблюдаться равенство дисперсий между комплексами. При этом выбор элементов должен осуществляться случайным образом.

Во втором случае, когда выборочные совокупности имеют произвольные распределения, используются непараметрические (ранговые) аналоги однофакторного дисперсионного анализа (критерии Крускала - Уоллиса, Фридмана).

Рассмотрим графическую иллюстрацию зависимости ставки доходности акций от положения дел в экономике страны (рис. 1, а). Здесь исследуемым фактором является уровень состояния экономики (точнее, три уровня ее состояния), а результативным признаком - ставка доходности. Приведенное распределение показывает, что данный фактор оказывает существенное влияние на доходность, т.е. с улучшением дел в экономике растет и доходность акций, что не противоречит здравому смыслу.

Заметим, что выбранный фактор имеет градации, т.е. его величина изменялась при переходе от одной градации к другой (от одного состояния экономики к другому).

Рис. 1. Соотношение влияние фактора и внутригруппового разброса: а-существенное влияние фактора; б - незначимое влияние фактора

Группа градаций фактора является лишь частным случаем, кроме того, фактор может иметь градации, представленные даже в номинальной шкале. Потому чаще говорят не о градациях фактора, а о различных условиях его действия.

Рассмотрим теперь идею дисперсионного анализа, в основе которой лежит правило сложения дисперсий: общая дисперсия равна сумме межгрупповой и средней из внутригрупповых дисперсий:

Общая дисперсия, возникающая под влиянием всех факторов

Межгрупповая дисперсия, обусловленная влиянием всех прочих факторов;

Средняя внутригрупповая дисперсия, вызванная влиянием группировочного признака.

Влияние группированного признака хорошо видно на рис.1 а, так как влияние фактора существенно по сравнению с внутригрупповым разбросом, следовательно, межгрупповая дисперсия будет больше внутригрупповой ( > ), а на рис. 1, б наблюдается обратная картина: здесь преобладает внутригрупповой разброс и практически отсутствует влияние фактора.

На этом же принципе построен и дисперсионный анализ, только в нем используются не дисперсии, а средние квадратов отклонений (, , ), являющиеся несмещенными оценками соответствующих дисперсий. Их получают делением сумм квадратов отклонений на соответствующее число степеней свободы

Совокупности в целом;

Внутригрупповые средние;

Межгрупповые средние;

Общая средняя по всем измерениям (по всем группам);

Групповая средняя для j-й градации фактора.

Математические ожидания соответственно для внутригрупповой и межгрупповой суммы квадратов отклонений вычисляются по формулам: (Модеь с фиксированным фактором),

.

Е () = Е () = , то нулевая гипотеза H0 об отсутствии различий между средними подтверждается, следовательно, исследуемый фактор не оказывает существенного влияния (см. рис. 1, б). Если фактическое значение F-критерия Фишера F= Е () /Е () окажется больше критического то нулевая гипотеза H0 при уровне значимости , отвергается и принимается альтернативная гипотеза H1, - о существенном воздействии фактора рис. 1, а. .

Однофакторный дисперсионный анализ

Дисперсионный анализ, который рассматривает только одну переменную называется однофакторным дисперсионным анализом (One -Way ANOVA).

Имеется группа из п объектов наблюдения с измеренными значениями некоторой исследуемой переменной. На переменную оказывает воздействие некоторый качественный фактор с несколькими уровнями (градациями) воздействия. Измеренные значения переменной при различных уровнях фактора приведены в таблице 2 (они также могут быть представлены в матричном виде).

Таблица 2.

Табличная форма задания исходных данных для однофакторного анализа

Номер объекта наблюдения ()Значения переменной при уровне(градации) фактора (самый низкий)(низкий)… (самый высокий)1 2 … n.Здесь каждый уровень может содержать разное количество откликов, измеренных при одном уровне фактора, тогда каждому столбцу будет соответствовать свое значение . Требуется оценить значимость влияния данного фактора на исследуемую переменную. Для решения этой задачи может использоваться однофакторная модель дисперсионного анализа. Однофакторная дисперсионная модель.

Значение исследуемой переменой для -го объекта наблюдения при -м уровне фактора;

Групповая средняя для - го уровня фактора;

Эффект, обусловленный влиянием -го уровня фактора;

Случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов. Итак выделим основные ограничения использования дисперсионного анализа:

Равенство нулю математического ожидания случайной компоненты: = 0.

Случайная компонента , а следовательно, и имеют нормальный закон распределения.

Число градаций факторов должно быть не менее трех.

Данная модель в зависимости от уровней фактора с помощью F-критерия Фишера позволяет проверить одну из нулевых гипотез.

При выполнении дисперсионного анализа для связанных выборок возможна проверка еще одной нулевой гипотезы H0{и) - индивидуальные различия между объектами наблюдения выражены не более, чем различия, обусловленные случайными причинами.

Однофакторный дисперсионный анализ

(Практическая реализация в IBM SPSS Statistics 20)

Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Изучается действие только одной переменной (фактора) на исследуемый признак. Мы уже рассмотрели пример из экономики теперь приведем пример из психологии например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором - степень наглядности, в третьем - фактор публичности.

В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех.

Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов (табл. 3) .

Таблица 3

Количество воспроизведенных слов

ИспытуемогоГруппа 1 низкая скоростьГруппа 2 средняя скоростьГруппа 3 высокая скорость187427853953454656626874суммы433724среднее7,176,174,00

Сформулируем гипотезы: различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.

Решение проведем в среде SPSS по следующему алгоритму

Запустим программу SPSS

Введем числовые значения в окне данные

Рис. 1. Ввод значений в SPSS

В окне Переменные опишем все исходные данные, согласно условию

Задачи

Рисунок 2 Окно переменные

Для наглядности в графе метка опишем название таблиц

В графе Значения опишем номер каждой группы

Рисунок 3 Метки значений

Все это делается для наглядности т.е. этими настройками можно пренебречь

В графе шкала, во втором столбце нужно поставить значение номинальная

В окне данные закажем однофакторный дисперсионный анализ с помощью меню «Анализ» Сравнение средних

Однофакторный дисперсионный анализ…

Рисунок 4 Функция Однофакторный дисперсионный анализ

В открывшемся диалоговом окне Однофакторный дисперсионный анализ выделим зависимую переменную и внесем ее в список зависимых, а переменную фактор в окно фактор

Рисунок 5 выделение списка зависимых и фактора

Настроим некоторые параметры для качественного выведения данных

Рисунок 6 Параметры для качественного выведения данных

Вычисления по выбранному алгоритму однофакторного дисперсионного анализа начинается после щелчка ОК

По окончанию вычислений в окне просмотра выводятся результаты расчета

Описательные статистикиГруппаNСреднееСтд. ОтклонениеСтд. Ошибка95% доверительный интервал для среднегоМинимумМаксимумНижняя границаВерхняя границанизкая скорость67,171,472,6015,628,7159средняя скорость66,171,472,6014,627,7148высокая скорость64,001,414,5772,525,4826Итого185,781,927,4544,826,7429Таблица 2. Описательные статистики

В таблице Описательные статистики приведены основные показатели по скоростям в группах и их итоговые значения

Количество наблюдений в каждой группе и суммарное

Среднее - среднее арифметическое наблюдений в каждой группе и по всем группам вместе

Стд. Отклонение, Стд. Ошибка - среднее квадратическое отклонение и стандартные отклонения

% доверительный интервал для среднего - эти интервалы являются наиболее точными для каждой группы и по всем группам вместе , нежели если взять интервалы ниже или выше этих границ.

Минимум, Максимум - минимальные и максимальные значения для каждой группы, которые услышали испытуемые

однофакторный дисперсионный случайный

Критерий однородности дисперсийгруппаСтатистика Ливиняст.св.1ст.св.2Знч.,089215,915

Критерий однородности Ливиня используется для проверки дисперсий на гомогенность(однородность). В данном случае он подтверждает незначимость различий между дисперсиями, поскольку значение = 0.915 т.е явно больше 0.05. Поэтому результаты полученные с помощью дисперсионного анализа признаются корректными.

В таблице однофакторный дисперсионный анализ приведены результаты Однофакторного ДА

Сумма квадратов «между группами» представляет собой сумму квадратов разностей между общим средним значением и средними значениями в каждой группе с учетом весовых коэффициентов, равных числу объектов в группе

«Внутри групп» представляет собой сумму квадратов разностей среднего значения каждой группы и каждого значения этой группы

Столбец «ст.св.» содержит число степеней свободы V:

Межгрупповое (v=число групп - 1);

Внутригрупповое (v=число объектов - число групп - 1);

«средний квадрат» содержит отношение суммы квадратов к числу степеней свободы.

В столбце «F» приведено отношение среднего квадрата между группами к среднему квадрату внутри групп.

В столбце «знч» содержится значение вероятности того, что наблюдаемые различия случайны

Таблица 4 Формулы

Графики средних

По графику видно, что он убывает. Так же можно определить по таблице Fк k1=2, k2=15 табличное значение статистики равно 3,68. По правилу если , то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера (7.45>3.68), следовательно принимается альтернативная гипотеза. Таким образом возвращаясь к условию задачи можно сделать вывод нулевая гипотеза отклоняется и принимается альтернативная : различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы ). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

Однофакторный дисперсионный анализ

(Практическая реализация в Microsoft Office 2013)

На этом же примере рассмотрим однофакторный дисперсионный анализ в Microsoft Office 2013

Решение задачи в Microsoft Excel

Откроем Microsoft Excel.


Рисунок 1. Запись данных в Excel

Преобразуем данные в числовой формат. Для этого на вкладке главное есть пункт Формат а в нем есть подпункт Формат ячейки. На экранe появится окно Формат ячеек. Рис. 2 Выберем Числовой формат и введенные данные преобразуются. Как показано на Рис.3

Рисунок 2 Преобразуем в числовой формат

Рисунок 3 Результат после преобразование

На вкладке данные есть пункт анализ данных кликнем по нему.

Выберем Однофакторный дисперсионный анализ

Рисунок 6 Анализ данных

На экране появится окно Однофакторный дисперсионный анализ для проведения дисперсионного анализа данных (Рис.7). Произведем настройку параметров

Рис. 7 Настройка параметров для однофакторного анализа

Щелкнем мышью в поле Входной интервал. Выделим диапазон ячеек B2::F9, данные в котором нужно проанализировать. В поле Входной интервал группы элементов управления Входные данные, появится указанный диапазон.

Если в группе элементов управления Входные данные не установлен переключатель по строкам, то установите его, чтобы программа Ехcel воспринимала группы данных по строкам.

Если нужно Установите флажок Метки в первой строке в группе элементов управления Входные данные, если первый столбец выделенного диапазона данных содержит названия строк.

В поле ввода Альфа группы элементов управления Входные данные по умолчанию отображается величина 0,05, которая связана с вероятностью возникновения ошибки в дисперсионном анализе.

Если в группе элементов управления Параметры вывода не установлен переключатель выходной интервал то установим его либо выберем переключатель новый рабочий лист, чтобы данные были перенесены на новый лист.

Нажмем кнопку ОК, чтобы закрыть окно Однофакторный дисперсионный анализ. Появятся результаты дисперсионного анализа (Рис.8).

Рисунок 8 Вывод данных

В диапазоне ячеек А4:Е7 расположены результаты описательной статистики. В строке 4 находятся названия параметров, в строках 5 - 7 - статистические значения, вычисленные по партиям. В столбце «Счет» расположены количества измерений, в столбце «Сумма» - суммы величин, в столбце «Среднее» - средние арифметические значения, в столбце «Дисперсия» - дисперсии.

Полученные результаты показывают, что наибольшая средняя разрывная нагрузка в партии №1, а наибольшая дисперсия разрывной нагрузки -в партии №2, №1.

В диапазоне ячеек А10:G15 отображается информация, касающаяся существенности расхождений между группами данных. В строке 11 находятся названия параметров дисперсионного анализа, в строке 12 - результаты межгрупповой обработки, в строке 13 - результаты внутригрупповой обработки, а в строке 15 - суммы значений этих двух строк.

В столбце SS расположены величины варьирования, т.е. суммы квадратов по всем отклонениям. Варьирование, как и дисперсия, характеризует разброс данных.

В столбце df находятся значения чисел степеней свободы. Данные числа указывают на количество независимых отклонений, по которым будет вычисляться дисперсия. Например, межгрупповое число степеней свободы равняется разности количеству групп данных и единицы. Чем больше число степеней свободы, тем выше надежность дисперсионных параметров. Данные степеней свобод в таблице показывают, что для внутригрупповых результатов надежность выше, чем для межгрупповых параметров.

В столбце MS расположены величины дисперсии, которые определяются отношением варьирования и числа степеней свобод. Дисперсия характеризует степень разброса данных, но в отличие от величины варьирования, не имеет прямой тенденции увеличиваться с ростом числа степеней свобод. Из таблицы видно, что межгрупповая дисперсия значительно больше внутригрупповой дисперсии.

В столбце F находится, значение F-статистики, вычисляемое отношением межгрупповой и внутригрупповой дисперсий.

В столбце F критическое расположено F-критическое значение, рассчитываемое по числу степеней свободы и величине Альфа. F-статистика и F-критическое значение используют критерий Фишера-Снедекора.

Если F-статистика больше F-критического значения, то можно утверждать, что различия между группами данных носят неслучайный характер. т.е. на уровне значимости α = 0,05 (с надежностью 0,95) нулевая гипотеза отвергается и принимается альтернативная: что скорость предъявления слов влияет на объем их воспроизведения. В столбце Р-значение находится значение вероятности того, что расхождение между группами случайно. Так как в таблице данная вероятность очень мала, то отклонение между группами носит неслучайный характер.

Сравнение IBM SPSS Statistics 20 и Microsoft Office 2013

однофакторный дисперсионный случайный программа

Посмотрим на выводы программ, для этого взглянем еще раз на скриншоты.

Однофакторный дисперсионный анализгруппаСумма квадратовст.св.Средний квадратFЗнч.Между группами31,444215,7227,447,006Внутри групп31,667152,111Итого63,11117

Таким образом программа IBM SPSS Statistics 20 лучше производит счет, может округлять числа, строить наглядный график (см. полное решение) по которому можно определить ответ, в ней более подробно описаны, как условия задачи, так и их решение. В Microsoft Office 2013 есть свои плюсы, во - первых это, конечно, его распространённость так как Microsoft Office 2013 установлен почти в каждом компьютере, он выводит Fкритическое, что не предусмотрено в SPSS Statistics, а также там тоже просто и удобно считать. Все-таки обе этих программы очень хорошо подходят для решения задач на однофакторный дисперсионный анализ, у каждой из них есть свои плюсы и минусы, но если считать большие задачи с большими условиями рекомендовал бы SPSS Statistics.

Заключение

Дисперсионный анализ применяется во всех областях научных исследований, где необходимо проанализировать влияние различных факторов на исследуемую переменную. В современном мире есть множество задач на однофакторный дисперсионный анализ как в экономике, психологии, биологии. В результате изучения теоретического материала было установлено, что основой дисперсионного анализа является теорема о сложении дисперсий, из множество пакетов прикладных программ, в которых реализован аппарат дисперсионного анализа, подобранны самые лучшие и включены в работу. Благодаря появлению новых технологий каждый из нас может проводить исследования (решения), затрачивая при этом меньше времени и усилий на вычисления, при помощи ЭВМ. В процессе работы были поставлены цели, задачи, которые были достигнуты.

писок литературы

Сидоренко, Е.В. Методы математической обработки в психологии [Текст] / СПб. 2011. - 256 с.

Математическая статистика для психологов Ермолаев О.Ю [Текст] / Москва_2009 -336с

Лекция 7. Аналитическая статистика [Электронный ресурс]. , Дата доступа: 14.05.14

Теория вероятностей и математическая статистика[Текст] / Гмурман В.Е 2010 -479с

) предназначен для сравнения исключительно двух совокупностей. Однако часто он неверно используется для попарного сравнения большего количества групп (рис. 1), что вызывает т.н. эффект множественных сравнений (англ. multiple comparisons; Гланц 1999, с. 101-104). Об этом эффекте и о том, как с ним бороться, мы поговорим позднее. В этом же сообщении я опишу принципы однофакторного дисперсионного анализа , как раз предназначенного для одновременного сравнения средних значений двух и более групп. Принципы дисперсионного анализа (англ. an alysis o f va riance , ANOVA) были разработаны в 1920-х гг. сэром Рональдом Эйлмером Фишером (англ. Ronald Aylmer Fisher ) - "гением, едва не в одиночку заложившим основы современной статистики " (Hald 1998).

Может возникнуть вопрос: почему метод, используемый для сравнения средних значений, называется дисперсионным анализом? Все дело в том, что при установлении разницы между средними значениями мы в действительности сравниваем дисперсии анализируемых совокупностей. Однако обо всем по порядку...

Постановка задачи

Рассмотренный ниже пример заимствован из книги Maindonald & Braun (2010). Имеются данные о весе томатов (все растение целиком; weight , в кг), которые выращивали в течение 2 месяцев при трех разных экспериментальных условиях (trt , от treatment ) - на воде (water ), в среде с добавлением удобрения (nutrient ), а также в среде с добавлением удобрения и гербицида 2,4-D (nutrient+24D ):

# Создадим таблицу с данными: tomato <- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Просмотрим результат: weight weight trt 1 1.50 Water 2 1.90 Water 3 1.30 Water 4 1.50 Water 5 2.40 Water 6 1.50 Water 7 1.50 Nutrient 8 1.20 Nutrient 9 1.20 Nutrient 10 2.10 Nutrient 11 2.90 Nutrient 12 1.60 Nutrient 13 1.90 Nutrient+24D 14 1.60 Nutrient+24D 15 0.80 Nutrient+24D 16 1.15 Nutrient+24D 17 0.90 Nutrient+24D 18 1.60 Nutrient+24D


Переменная trt представляет собой фактор с тремя уровнями. Для более наглядного сравнения экспериментальных условий в последующем, сделаем уровень "water " базовым (англ. reference ), т.е. уровнем, с которым R будет сравнивать все остальные уровни. Это можно сделать при помощи функции relevel() :


Чтобы лучше понять свойства имеющихся данных, визуализируем их при помощи наблюдаемые различия между групповыми средними несущественны и вызваны влиянием случайных факторов (т.е. в действительности все полученные измерения веса растений происходят из одной нормально распределенной генеральной совокупности):

Подчеркнем еще раз, что рассматриваемый пример соответствует случаю однофакторного дисперсионного анализа: изучается действие одного фактора - условий выращивания (с тремя уровнями - Water , Nutrient и Nutrient+24D ) на интересующую нас переменную-отклик - вес растений.

К сожалению, исследователь почти никогда не имеет возможности изучить всю генеральную совокупность. Как же нам тогда узнать, верна ли приведенная выше нулевая гипотеза, располагая только выборочными данными? Мы можем сформулировать этот вопрос иначе: какова вероятность получить наблюдаемые различия между групповыми средними, извлекая случайные выборки из одной нормально распределенной генеральной совокупности ? Для ответа на этот вопрос на нам потребуется статистический критерий, который количественно характеризовал бы величину различий между сравниваемыми группами.