Коэффициент стьюдента для чего применяется. Определение достоверности различий по t-критерию Стьюдента

​ Парный t-критерий Стьюдента – одна из модификаций метода Стьюдента, используемая для определения статистической значимости различий парных (повторных) измерений.

1. История разработки t-критерия

t-критерий был разработан Уильямом Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашению коммерческой тайны, статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).

2. Для чего используется парный t-критерий Стьюдента?

Парный t-критерий Стьюдента используется для сравнения двух зависимых (парных) выборок . Зависимыми являются измерения, выполненные у одних и тех же пациентов, но в разное время, например, артериальное давление у больных гипертонической болезнью до и после приема антигипертензивного препарата. Нулевая гипотеза гласит об отсутствии различий между сравниваемыми выборками, альтернативная - о наличии статистически значимых различий.

3. В каких случаях можно использовать парный t-критерий Стьюдента?

Основным условием является зависимость выборок , то есть сравниваемые значения должны быть получены при повторных измерениях одного параметра.

Как и в случае сравнения независимых выборок, для применения парного t-критерия необходимо, чтобы исходные данные имели нормальное распределение . При несоблюдении этого условия для сравнения выборочных средних должны использоваться методы непараметрической статистики , такие как G-критерий знаков и Т-критерий Вилкоксона .

Парный t-критерий может использоваться только при сравнении двух выборок. Если необходимо сравнить три и более повторных измерений, следует использовать однофакторный дисперсионный анализ для повторных измерений .

4. Как рассчитать парный t-критерий Стьюдента?

Парный t-критерий Стьюдента рассчитывается по следующей формуле:

где М d - средняя арифметическая разностей показателей, измеренных до и после, σ d - среднее квадратическое отклонение разностей показателей, n - число исследуемых.

5. Как интерпретировать значение t-критерия Стьюдента?

Интерпретация полученного значения парного t-критерия Стьюдента не отличается от оценки t-критерия для несвязанных совокупностей. Прежде всего, необходимо найти число степеней свободы f по следующей формуле:

f = n - 1

После этого определяем критическое значение t-критерия Стьюдента для требуемого уровня значимости (например, p<0,05) и при данном числе степеней свободы f по таблице (см. ниже ).

Сравниваем критическое и рассчитанное значения критерия:

  • Если рассчитанное значение парного t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами.
  • Если значение рассчитанного парного t-критерия Стьюдента меньше табличного, значит различия сравниваемых величин статистически не значимы.

6. Пример расчета t-критерия Стьюдента

Для оценки эффективности нового гипогликемического средства были проведены измерения уровня глюкозы в крови пациентов, страдающих сахарным диабетом, до и после приема препарата. В результате были получены следующие данные:

Решение:

1. Рассчитаем разность каждой пары значений (d ):

N пациента Уровень глюкозы в крови, ммоль/л Разность значений (d)
до приема препарата после приема препарата
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Найдем среднюю арифметическую разностей по формуле:

3. Найдем среднее квадратическое отклонение разностей от средней по формуле:

4. Рассчитаем парный t-критерий Стьюдента:

5. Сравним полученное значение t-критерия Стьюдента 8.6 с табличным значением, которое при числе степеней свободы f равном 10 - 1 = 9 и уровне значимости p=0.05 составляет 2.262. Так как полученное значение больше критического, делаем вывод о наличии статистически значимых различий содержания глюкозы в крови до и после приема нового препарата.

Наступила осень, а значит, настало время для запуска нового тематического проекта "Статистический анализ с R". В нем мы рассмотрим статистические методы с точки зрения их применения на практике: узнаем какие методы существуют, в каких случаях и каким образом их проводить в . На мой взгляд, Критерий Стьюдента или t-тест (от англ. t-test) идеально подходит в качестве введения в мир статистического анализа. Тест Стьюдента достаточно прост и показателен, а также требует минимум базовых знаний в статистике, с которыми читатель может ознакомиться в ходе прочтения этой статьи.

Примечание_1: здесь и в других статьях Вы не увидите формул и математических объяснений, т.к. информация рассчитана на студентов естественных и гуманитарных специальностей, которые делают лишь первые шаги в стат. анализе.

Что такое t-тест и в каких случаях его стоит применять

В начале следует сказать, что в статистике зачастую действует принцип бритвы Оккамы , который гласит, что нет смысла проводить сложный статистический анализ, если можно применить более простой (не стоит резать хлеб бензопилой, если есть нож). Именно поэтому, несмотря на свою простоту, t-тест является серьезным инструментом, если знать что он из себя представляет и в каких случаях его стоит применять.

Любопытно, что создал этот метод Уильямом Госсет - химик, приглашенный работать на фабрику Guinness. Разработанный им тест служил изначально для оценки качества пива. Однако, химикам фабрики запрещалось независимо публиковать научные работы под своим именем. Поэтому в 1908 году Уильям опубликовал свою статью в журнале "Biometrika" под псевдонимом "Стьюдент". Позже, выдающийся математик и статистик Рональд Фишер доработал метод, который затем получил массовое распространение под названием Student"s t-test.

Критерий Стьюдента (t-тест) - это статистический метод, который позволяет сравнивать средние значения двух выборок и на основе результатов теста делать заключение о том, различаются ли они друг от друга статистически или нет. Если Вы хотите узнать, отличается ли средний уровень продолжительности жизни в Вашем регионе от среднего уровня по стране; сравнить урожайность картофеля в разных районах; или изменяется ли кровяное давление до и после употребления нового лекарства, то t-тест может быть Вам полезен. Почему может быть? Потому что для его проведения, необходимо, чтобы данные выборок имели распределение близкое к нормальному. Для этого существуют методы оценки, которые позволяют сказать, допустимо ли в данном случае полагать, что данные распределены нормально или нет. Поговорим об этом подробнее.

Нормальное распределение данных и методы его оценки qqplot и shapiro.test

Нормальное распределение данных характерно для количественных данных, на распределение которых влияет множество факторов, либо оно случайно. Нормальное распределение характеризуется несколькими особенностями:

  • Оно всегда симметрично и имеет форму колокола.
  • Значения среднего и медианы совпадают.
  • В пределах одного стандартного отклонения в обе стороны лежат 68.2% всех данных, в пределах двух - 95,5%, в пределах трех - 99,7%

Давайте создадим случайную выборку с нормальным распределением на , где общее количество измерений = 100, среднее арифметическое = 5, а стандартное отклонение = 1. Затем отобразим его на графике в виде гистограммы:

mydata <- rnorm(100, mean = 5, sd = 1) hist(mydata, col = "light green")

Ваш график может слегка отличаться от моего, так как числа сгенерированы случайным образом. Как Вы видите, данные не идеально симметричны, но кажется сохраняют форму нормального распределения. Однако, мы воспользуемся более объективными методами определения нормальности данных.

Одним из наиболее простых тестов нормальности является график квантилей (qqplot) . Суть теста проста: если данные имеют нормальное распределение, то они не должны сильно отклоняться от линии теоретических квантилей и выходить за пределы доверительных интервалов. Давайте проделаем этот тест в R.

пакета "car" в среду R qqPlot(mydata) #запустим тест

Как видно из графика, наши данные не имеют серьезных отклонений от теоретического нормального распределения. Но порой при помощи qqplot невозможно дать однозначный ответ. В этом случае следует использовать тест Шапиро-Уилка , который основан на нулевой гипотезе, что наши данные распределены нормально. Если же P-значение менее 0.05 (p-value < 0.05), то мы вынуждены отклонить нулевую гипотезу. P-значение в этом случае будет говорить о том, что вероятность ошибки при отклонении нулевой гипотезы будет равна менее 5%.

Провести тест Шапиро-Уилка в R не составит труда. Для этого нужно всего лишь вызвать функцию shapiro.test, и в скобках вставить имя ваших данных. В нашем случае p-value должен быть значительно больше 0.05, что не позволяет отвергнуть нулевую гипотезу о том, что наши данные распределены нормально.

Запускаем t-тест Стьюдента в среде R

Итак, если данные из выборок имеют нормальное распределение, можно смело приступать к сравнению средних этих выборок. Существует три основных типа t-теста, которые применяются в различных ситуациях. Рассмотрим каждый из них с использованием наглядных примеров.

Одновыборочный критерий Стьюдента (one-sample t-test)

Одновыборочный t-тест следует выбирать, если Вы сравниваете выборку с общеизвестным средним. Например, отличается ли средний возраст жителей Северо-Кавказского Федерального округа от общего по России. Существует мнение, что климат Кавказа и культурные особенности населяющих его народов способствуют продлению жизни. Для того, чтобы проверить эту гипотезу, мы возьмем данные РосСтата (таблицы среднего ожидаемого продолжительности жизни по регионам России) и применим одновыборочный критерий Стьюдента. Так как критерий Стьюдента основан на проверке статистических гипотез, то за нулевую гипотезу будем принимать то, что различий между средним ожидаемым уровнем продолжительности по России и республикам Северного Кавказа нет. Если различия существуют, то для того, чтобы считать их статистически значимыми p-value должно быть менее 0.05 (логика та же, что и в вышеописанном тесте Шапиро-Уилка).

Загрузим данные в R. Для этого, создадим вектор со средними значениями по республикам Кавказа (включая Адыгею). Затем, запустим одновыборочный t-тест, указав в параметре mu среднее значение ожидаемого возраста жизни по России равное 70.93.

rosstat <-c(79.42, 75.83, 74.16, 73.91, 73.82, 73.06, 72.01) qqPlot(rosstat) shapiro.test(rosstat) t.test(rosstat, mu = 70.93)

Несмотря на то, что у нас всего 7 точек в выборке, в целом они проходят тесты нормальности и мы можем на них полагаться, так как эти данные уже были усреднены по региону.

Результаты t-теста говорят о том, что средняя ожидаемая продолжительность жизни у жителей Северного Кавказа (74.6 лет) действительно выше, чем в среднем по России (70.93 лет), а результаты теста являются статистически значимыми (p < 0.05).

Двувыборочный для независимых выборок (independent two-sample t-test)

Двувыборочный t-тест используется, когда Вы сравниваете две независимые выборки . Допустим, мы хотим узнать, отличается ли урожайность картофеля на севере и на юге какого-либо региона. Для этого, мы собрали данные с 40 фермерских хозяйств: 20 из которых располагались на севере и сформировали выборку "North", а остальные 20 - на юге, сформировав выборку "South".

Загрузим данные в среду R. Кроме проверки нормальности данных, будет полезно построить "график с усами", на котором можно видеть медианы и разброс данных для обеих выборок.

North <- c(122, 150, 136, 129, 169, 158, 132, 162, 143, 179, 139, 193, 155, 160, 165, 149, 173, 173, 141, 166) qqPlot(North) shapiro.test(North) South <- c(170, 163, 178, 150, 166, 142, 157, 149, 151, 164, 163, 161, 159, 139, 180, 155, 144, 139, 151, 160) qqPlot(North) shapiro.test(North) boxplot(North, South)

Как видно из графика, медианы выборок не сильно отличаются друг от друга, однако разброс данных гораздо сильнее на севере. Проверим отличаются ли статистически средние значения при помощи функции t.test. Однако в этот раз на место параметра mu мы ставим имя второй выборки. Результаты теста, которые Вы видите на рисунке снизу, говорят о том, что средняя урожайность картофеля на севере статистически не отличается от урожайности на юге (p = 0.6339).

Двувыборочный для зависимых выборок (dependent two-sample t -test )

Третий вид t-теста используется в том случае, если элементы выборок зависят друг от друга . Он идеально подходит для проверки повторяемости результатов эксперимента: если данные повтора статистически не отличаются от оригинала, то повторяемость данных высокая. Также двувыборочный критерий Стьюдента для зависимых выборок широко применяется в медицинских исследованиях при изучении эффекта лекарства на организм до и после приема.

Для того, чтобы запустить его в R, следует ввести все ту же функцию t.test . Однако, в скобках, после таблиц данных, следует ввести дополнительный аргумент paired = TRUE . Этот аргумент говорит о том, что Ваши данные зависят друг от друга. Например:

t.test(experiment, povtor.experimenta, paired = TRUE) t.test(davlenie.do.priema, davlenie.posle.priema, paired = TRUE)

Также в функции t.test существует два дополнительных аргумента, которые могут улучшить качество результатов теста: var.equal и alternative . Если вы знаете, что вариация между выборками равна, вставьте аргумент var.equal = TRUE . Если же вы хотите проверить гипотезу о том, что разница между средними в выборках значительно меньше или больше 0, то введите аргумент alternative="less" или alternative="greater" (по умолчанию альтернативная гипотеза говорит о том, что выборки просто отличаются друг от друга: alternative="two.sided" ).

Заключение

Статья получилась довольно длинной, зато теперь Вы знаете: что такое критерий Стьюдента и нормальное распределение; как при помощи функций qqplot и shapiro.test проверять нормальность данных в R; а также разобрали три типа t-тестов и провели их в среде R.

Тема для тех, кто только начинает знакомиться со статистическим анализом - непростая. Поэтому не стесняйтесь, задавайте вопросы, я с удовольствием на них отвечу. Гуру статистики, пожалуйста поправьте меня, если где-нибудь допустил ошибку. В общем, пишите Ваши комментарии, друзья!

Таблица распределения Стьюдента

Таблицы интеграла вероятностей используются для выборок большого объема из бесконечно большой генеральной совокупности. Но уже при (n ) < 100 получается Несоответствие между

табличными данными и вероятностью предела; при (n ) < 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

ральной совокупности не имеет значения, так как распределение отклонений выборочного показателя от генеральной характеристики при большой выборке всегда оказывается нормаль-

ным. В выборках небольшого объема (n ) < 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

вокупности, имеющей нормальное распределение. Теория малых выборок разработана английским статистиком В. Госсетом (писавшим под псевдонимом Стьюдент) в начале XX в. В

1908 г. им построено специальное распределение, которое позволяет и при малых выборках соотносить (t ) и доверительную вероятность F(t ). При (n ) > 100, таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 < (n ) <

100 различия незначительны. Поэтому практически к малым выборкам относят выборки объемом менее 30 единиц (безусловно, большой считается выборка с объемом более 100 единиц).

Использование малых выборок в ряде случаев обусловлено характером обследуемой совокупности. Так, в селекционной работе «чистого» опыта легче добиться на небольшом числе

делянок. Производственный и экономический эксперимент, связанный с экономическими затратами, также проводится на небольшом числе испытаний. Как уже отмечалось, в случае малой выборки только для нормально распределенной генеральной совокупности могут быть рассчитаны и доверительные вероятности, и доверительные пределы генеральной средней.

Плотность вероятностей распределения Стьюдента описывается функцией.

1 + t2

f (t ,n) := Bn

n − 1

t - текущая переменная;n - объем выборки;

B - величина, зависящая лишь от (n ).

Распределение Стьюдента имеет только один параметр: (d.f. ) -число степеней свободы (иногда обозначается (к )). Это распределение - как и нормальное, симметрично относительно точки (t ) = 0, но оно более пологое. При увеличении объема выборки, а, следовательно, и числа степеней свободы распределение Стьюдента быстро приближается к нормальному. Число степеней свободы равно числу тех индивидуальных значений признаков, которыми нужно рас-

полагать для определения искомой характеристики. Так, для расчета дисперсии должна быть известна средняя величина. Поэтому при расчете дисперсии применяют (d.f. )= n - 1 .

Таблицы распределения Стьюдента публикуются в двух вариантах:

1. аналогично таблицам интеграла вероятностей приводятся значения (t ) и соответствую-

щие вероятности F(t ) при разном числе степеней свободы;

2. значения (t ) приводятся для наиболее употребляемых доверительных вероятностей

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 и 0,99 или для 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. при разном числе степеней свободы. Такого рода таблица приведена в приложении

(Таблица 1 - 20 ), а также значение (t )- критерий Стьюдента при уровне значимости от0,7

Эквивалентным подходом к интерпретации результатов теста будет следующий: допустив, что нулевая гипотеза верна, мы можем рассчитать, насколько велика вероятность получить t -критерий, равный или превышающий то реальное значение, которое мы рассчитали по имеющимся выборочным данным. Если эта вероятность оказывается меньше, чем заранее принятый уровень значимости (например, Р < 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Предположим, у нас имеются данные по суточному потреблению энергии, поступающей с пищей (кДж/сутки), для 11 женщин (пример заимствован из книги Altman D. G. (1981) Practical Statistics for Medical Research , Chapman & Hall, London ):


Среднее значение для этих 11 наблюдений составляет:


Вопрос: отличается ли это выборочное среднее значение от установленной нормы в 7725 кДж/сутки? Разница между нашим выборочным значением и этим нормативом довольно прилична: 7725 - 6753.6 = 971.4. Но насколько велика эта разница статистически? Ответить на этот вопрос поможет одновыборочный t -тест. Как и другие варианты t -теста, одновыборочный тест Стьюдента выполняется в R при помощи функции t.test() :


Вопрос: различаются ли эти средние значения статистически? Проверим гипотезу об отсутствии разницы при помощи t -теста:

Но как в таких случаях оценить наличие эффекта от воздействия статистически? В общем виде критерий Стьюдента можно представить как

/-Критерий Стьюдента относится к параметрическим, следовательно, его использование возможно только в том случае, когда результаты эксперимента представлены в виде измерений по двум последним шкалам -- интервальной и отношений . Проиллюстрируем возможности критерия Стьюдента на конкретном примере.

Предположим, вам необходимо выяснить эффективность обучения стрельбе по определенной методике. С этой целью проводится сравнительный педагогический эксперимент, где одна группа (экспериментальная), состоящая из 8 человек, занимается по предлагаемой экспериментальной методике, а другая (контрольная) -- по традиционной, общепринятой. Рабочая гипотеза заключается в том, что новая, предлагаемая вами методика окажется более эффективной. Итогом эксперимента является контрольная стрельба из пяти выстрелов, по результатам которых (табл. 6) нужно рассчитать достоверность различий и проверить правильность выдвинутой гипотезы.

Таблица 6

Что же необходимо сделать для расчета достоверности различий по /-критерию Стьюдента?

1. Вычислить средние арифметические величины X для каждой группы в отдельности по следующей формуле:

где Xt -- значение отдельного измерения; я -- общее число измерений в группе.

Проставив в формулу фактические значения из табл. 6, получим:

Сопоставление среднеарифметических величин доказывает, что в экспериментально^ группе данная величина (X, = 35) выше, чем в контрольной (Хк = 27). Однако для окончательного утверждения того, что занимающиеся экспериментальной группы научились стрелять лучше, следует убедиться в статистической достоверности различий (/) между рассчитанными среднеарифметическими значениями.

2. В обеих группах вычислить стандартное отклонение (5) по следующей формуле:

:де Ximax -- наибольший показатель; Ximm -- наименьший показатель; К -- табличный коэффициент. Порядок вычисления стандартного отклонения (5): -- определить Xitrax в обеих группах; -- определить Ximia в этих группах; -- определить число измерений в каждой группе (л); -- найти по специальной таблице (приложение 12) значение коэффициента К, который соответствует числу измерений в группе (8). Для этого в левом крайнем столбце под индексом (и) находим цифру 0, так как количество измерений в нашем примере меньше 10, а в верхней строке -- цифру 8; на пересечении этих строк -- 2,85, что соответствует значению коэффициента.АГпри 8 испыту--- подставить полученные значения в формулу и произвести необходимые вычисления:

3. Вычислить стандартную ошибку среднего арифметического значения (т) по формуле:

Для нашего примера подходит первая формула, так как п < 30. Вычислим для каждой группы значения:

4. Вычислить среднюю ошибку разности по формуле:

5. По специальной таблице (приложение 13) определить досто верность различий. Для этого полученное значение (t) сравнивает ся с граничным при 5 %-ном уровне значимости (t0fi5) ПРИ числе степеней свободы/= пэ + пк - 2, где пэк пк~ общее число индивидуальных результатов соответственно в экспериментальной иконтрольной группах. Если окажется, что полученное в эксперименте t больше граничного значения (/0)о5)> т0 различия между средними арифметическими двух групп считаются достоверными при 50 %-ном уровне значимости, и наоборот, в случае когда полученное t меньше граничного значения t0<05, считается, что раз личия недостоверны и разница в среднеарифметических показателях групп имеет случайный характер. Граничное значение при 5 %-ном уровне значимости (Г0>05) определяется следующим образом:

вычислить число степеней свободы/= 8 + 8 - 2 = 14;

найти по таблице (приложение 13) граничное значение tofi5 при/= 14.

В нашем примере табличное значение tQ<05 = 2,15, сравним его с вычисленным Г, которое равно 1,7, т.е. меньше граничного значения (2,15). Следовательно, различия между полученными в эксперименте средними арифметическими значениями считаются недостоверными, а значит, недостаточно оснований для того, чтобы говорить о том, что одна методика обучения стрельбе оказалась эффективнее другой. В этом случае можно записать: / = 1,7 при/» > 0,05, это означает, что в случае проведения 100 аналогичньгх экспериментов вероятность (р) получения подобных результатов, когда средние арифметические величины экспериментальных групп окажутся выше контрольных, больше 5 %-ного уровня значимости или меньше 95 случаев из 100. Итоговое оформление таблицы с учетом полученных расчетов и с приведением соответствующих параметров может выглядеть следующим образом.

При сравнительно больших числах измерений условно принято считать, что если разница между средними арифметическими показателями равна или больше трех своих ошибок, различия считаются достоверными. В этом случае достоверность различий определяется по следующему уравнению:

Как уже говорилось в начале этого раздела, /-критерий Стью-дента может применяться только в тех случаях, когда измерения сделаны по шкале интервалов и отношений. Однако в педагогических исследованиях нередко возникает потребность определять Достоверность различий между результатами, полученными по Шкале наименований или порядка. В таких случаях используются непараметрические критерии. В отличие от параметрических непараметрические критерии не требуют вычисления определенных параметров полученных результатов (среднего арифметического, стандартного отклонения и т.п.), чем в основном и связаны их названия. Рассмотрим сейчас два непараметрических критерия для определения достоверности различий между независимыми результатами, полученными по шкале порядка и наименований.