Значение коэффициентов уравнения регрессии. Оценка статистической значимости уравнения регрессии его параметров

25.09.2019

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, коэффициент регрессии равен нулю, то есть b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную» (приложение 2).

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно всю совокупность причин можно разделить на две группы:

· изучаемый фактор х
· прочие факторы

Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси охи у = y. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, то есть регрессией у по х, так и вызванный действием прочих величин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r 2 xy будет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы (df - degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(y 1 -y), (y 2 -y),…,(y n -y)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов?(y-y) 2 требуется (n-1) независимых отклонений.

При расчете объясненной или факторной суммы квадратов?(y x -y) 2 используются теоретические (расчетные) значения результативного признака y x , найденные по линии регрессии: y x =а+b*x.

В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит: ?(y x -y) 2 =b 2 *?(x -x) 2 .

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К тому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака у, то есть y x . Величина y x определяется по уравнению линейной регрессии: y x =а+b*x. Параметр а можно определить как: a=y-b*x. Подставив выражение параметра а в линейную модель получим:

y x = y-b*x+b*x= y-b*(х-х).

Отсюда видно, что при заданном наборе переменных у и х расчетное значение y x является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку используется средняя вычисленная по данным выборки, то теряем одну степень свободы, то есть df общ = n-1.

Итак, имеется два равенства:

?(у-у) 2 =?(y x -у) 2 +?(у- y x) 2 ,

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

D общ =?(у-у) 2 /(n-1);

D факт =?(y x -у) 2 /1;

D ост =?(у- y x) 2 /(n-1).

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерия):

F= D факт / D ост, где

F - критерий для проверки нулевой гипотезы Н 0: D факт =D ост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различимом числе степеней свободы.

Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного.

В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: F факт >F табл. Н 0 отклоняется.

Если же величина окажется меньше табличной F факт

Оценку качества модели дает коэффициент детерминации. Коэффициент детерминации (R 2) -- это квадрат множественного коэффициента корреляции.

Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

Формула для вычисления коэффициента детерминации:

y i -- выборочные данные, а f i -- соответствующие им значения модели.

Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2 .

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока) (приложение 3).

Функциональная связь возникает при значении равном 1, а отсутствие связи -- 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

Для коэффициентов регрессионного уравнения проверка их уровня значимости осуществляется по t -критерию Стьюдента и по критерию F Фишера. Ниже мы рассмотрим оценку достоверности показателей регрессии только для линейных уравнений (12.1) и (12.2).

Y=a 0 + a 1 X (12.1)

Х= b 0 + b 1 Y (12.2)

Для это типа уравнений оценивают по t -критерию Стьюдента только величины коэффициентов а 1и b 1с использованием вычисления величины Тф по следующим формулам:

Где r yx коэффициент корреляции, а величину а 1можно вычислить по формулам 12.5 или 12.7.

Формула (12.27) используется для вычисления величины Тф, а 1уравнения регрессии Y по X.

Величину b 1можно вычислить по формулам (12.6) или (12.8).

Формула (12.29) используется для вычисления величины Тф, которая позволяет оценить уровень значимости коэффициента b 1уравнения регрессии X по Y

Пример. Оценим уровень значимости коэффициентов регрессии а 1и b 1уравнений (12.17), и (12.18), полученных при решении задачи 12.1. Воспользуемся для этого формулами (12.27), (12.28), (12.29) и (12.30).

Напомним вид полученных уравнений регрессии:

Y х = 3 + 0,06 X (12.17)

X y = 9+ 1 Y (12.19)

Величина а 1в уравнении (12.17) равна 0,06. Поэтому для расчета по формуле (12.27) нужно подсчитать величину Sb y х. Согласно условию задачи величина п = 8. Коэффициент корреляции также уже был подсчитан нами по формуле 12.9: r xy = √ 0,06 0,997 = 0,244 .

Осталось вычислить величины Σ (у ι - y ) 2 и Σ (х ι –x ) 2 , которые у нас не подсчитаны. Лучше всего эти расчеты проделать в таблице 12.2:

Таблица 12.2

№ испытуемых п/п	х ι	у i	х ι –x	(х ι –x ) 2	у ι - y	(у ι - y ) 2
			-4,75	22,56	- 1,75	3,06
			-4,75	22,56	-0,75	0,56
			-2,75	7,56	0,25	0,06
			-2,75	7,56	1,25	15,62
			1,25	1,56	1,25	15,62
			3,25	10,56	0,25	0,06
			5,25	27,56	-0,75	0,56
			5,25	27,56	0,25	0,06
Суммы				127,48		35,6
Средние	12,75	3,75

Подставляем полученные значения в формулу (12.28), получаем:

Теперь рассчитаем величину Тф по формуле (12.27):

Величина Тф проверяется на уровень значимости по таблице 16 Приложения 1 для t- критерия Стьюдента. Число степеней свободы в этом случае будет равно 8-2 = 6, поэтому критические значения равны соответственно для Р ≤ 0,05 t кр = 2,45 и для Р≤ 0,01 t кр =3,71. В принятой форме записи это выглядит так:

Строим «ось значимости»:

Полученная величина Тф Н о о том, что величина коэффициента регрессии уравнения (12.17) неотличима от нуля. Иными словами, полученное уравнение регрессии неадекватно исходным экспериментальным данным.

Рассчитаем теперь уровень значимости коэффициента b 1. Для этого необходимо вычислить величину Sb xy по формуле (12.30), для которой уже расчитаны все необходимые величины:

Теперь рассчитаем величину Тф по формуле (12.27):

Мы можем сразу построить «ось значимости», поскольку все предварительные операции были проделаны выше:

Полученная величина Тф попала в зону незначимости, следовательно мы должны принять гипотезу H о о том, что величина коэффициента регрессии уравнения (12.19) неотличима от нуля. Иными словами, полученное уравнение регрессии неадекватно исходным экспериментальным данным.

Нелинейная регрессия

Полученный в предыдущем разделе результат несколько обескураживает: мы получили, что оба уравнения регрессии (12.15) и (12.17) неадекватны экспериментальным данным. Последнее произошло потому, что оба эти уравнения характеризуют линейную связь между признаками, а мы в разделе 11.9 показали, что между переменными X и Y имеется значимая криволинейная зависимость. Иными словами, между переменными Х и Y в этой задаче необходимо искать не линейные, а криволинейные связи. Проделаем это с использованием пакета «Стадия 6.0» (разработка А.П. Кулаичева, регистрационный номер 1205).

Задача 12.2 . Психолог хочет подобрать регрессионную модель, адекватную экспериментальным данным, полученным в задаче 11.9.

Решение. Эта задача решается простым перебором моделей криволинейной регрессии предлагаемых в статистическом пакете Стадия. Пакет организован таким образом, что в электронную таблицу, которая является исходной для дальнейшей работы, заносятся экспериментальные данные в виде первого столбца для переменной X и второго столбца для переменной Y. Затем в основном меню выбирается раздел Статистики, в нем подраздел - регрессионный анализ, в этом подразделе вновь подраздел - криволинейная регрессия. В последнем меню даны формулы (модели) различных видов криволинейной регрессии, согласно которым можно вычислять соответствующие регрессионные коэффициенты и сразу же проверять их на значимость. Ниже рассмотрим только несколько примеров работы с готовыми моделями (формулами) криволинейной регрессии.

1. Первая модель - экспонента . Ее формула такова:

При расчете с помощью статпакета получаем а 0 = 1 и а 1 = 0,022.

Расчет уровня значимости для а, дал величину Р = 0,535. Очевидно, что полученная величина незначима. Следовательно, данная регрессионная модель неадекватна экспериментальным данным.

2. Вторая модель - степенная . Ее формула такова:

При подсчете а о = - 5,29, а, = 7,02 и а 1 = 0,0987.

Уровень значимости для а 1 - Р = 7,02 и для а 2 - Р = 0,991. Очевидно, что ни один из коэффициентов не значим.

3. Третья модель - полином . Ее формула такова:

Y = а 0 + а 1 X + а 2 X 2 + а 3 X 3

При подсчете а 0 = - 29,8, а 1 = 7,28, а 2 = - 0,488 и а 3 = 0,0103. Уровень значимости для а, - Р = 0,143, для а 2 - Р = 0,2 и для а, - Р= 0,272

Вывод - данная модель неадекватна экспериментальным данным.

4. Четвертая модель - парабола .

Ее формула такова: Y= a o + a l -X 1 + а 2 Х 2

При подсчете а 0 = - 9,88, а, = 2,24 и а 1 = - 0,0839 Уровень значимости для а 1 - Р = 0,0186, для а 2 - Р = 0,0201. Оба регрессионных коэффициента оказались значимыми. Следовательно, задача решена - мы выявили форму криволинейной зависимости между успешностью решения третьего субтеста Векслера и уровнем знаний по алгебре - это зависимость параболического вида. Этот результат подтверждает вывод, полученный при решении задачи 11.9 о наличии криволинейной зависимости между переменными. Подчеркнем, что именно с помощью криволинейной регрессии был получен точный вид зависимости между изучаемыми переменными.

Глава 13 ФАКТОРНЫЙ АНАЛИЗ

Основные понятия факторного анализа

Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, «сырых», экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

Необходимо подчеркнуть, что исходная таблица данных, из которой получается корреляционная матрица, не обязательно должна быть квадратной. Например, психолог измерил три показателя интеллекта (вербальный, невербальный и общий) и школьные отметки по трем учебным предметам (литература, математика, физика) у 100 испытуемых - учащихся девятых классов. Исходная матрица данных будет иметь размер 100 × 6, а матрица интеркорреляций размер 6 × 6, поскольку в ней имеется только 6 переменных. При таком количестве переменных матрица интеркорреляций будет включать 15 коэффициентов и проанализировать ее не составит труда.

Однако представим, что произойдет, если психолог получит не 6, а 100 показателей от каждого испытуемого. В этом случае он должен будет анализировать 4950 коэффициентов корреляции. Число коэффициентов в матрице вычисляется по формуле n (n+1)/2 и в нашем случае равно соответственно (100×99)/2= 4950.

Очевидно, что провести визуальный анализ такой матрицы - задача труднореализуемая. Вместо этого психолог может выполнить математическую процедуру факторного анализа корреляционной матрицы размером 100 × 100 (100 испытуемых и 100 переменных) и таким путем получить более простой материал для интерпретации экспериментальных результатов.

Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению.

Элементы факторной матрицы называются или весами»; и они представляют собой коэффициенты корреляции данного фактора со всеми показателями, использованными в исследовании. Факторная матрица очень важна, поскольку она показывает, как изучаемые показатели связаны с каждым выделенным фактором. При этом факторный вес демонстрирует меру, или тесноту, этой связи.

Поскольку каждый столбец факторной матрицы (фактор) является своего рода переменной величиной, то сами факторы также могут коррелировать между собой. Здесь возможны два случая: корреляция между факторами равна нулю, в таком случае факторы являются независимыми (ортогональными). Если корреляция между факторами больше нуля, то в таком случае факторы считаются зависимыми (облическими). Подчеркнем, что ортогональные факторы в отличие от облических дают более простые варианты взаимодействий внутри факторной матрицы.

В качестве иллюстрации ортогональных факторов часто приводят задачу Л. Терстоуна, который, взяв ряд коробок разных размеров и формы, измерил в каждой из них больше 20 различных показателей и вычислил корреляции между ними. Профакторизовав полученную матрицу интеркорреляций, он получил три фактора, корреляция между которыми была равна нулю. Этими факторами были «длина», «ширина» и «высота».

Для того чтобы лучше уловить сущность факторного анализа, разберем более подробно следующий пример.

Предположим, что психолог у случайной выборки студентов получает следующие данные:

V 1 - вес тела (в кг);

V 2 - количество посещений лекций и семинарских занятий по предмету;

V 3 - длина ноги (в см);

V 4 - количество прочитанных книг по предмету;

V 5 - длина руки (в см);

V 6 - экзаменационная оценка по предмету (V - от английского слова variable - переменная).

При анализе этих признаков не лишено оснований предположение о том, что переменные V 1 , К 3 и V 5 - будут связаны между собой, поскольку, чем больше человек, тем больше он весит и тем длиннее его конечности. Сказанное означает, что между этими переменными должны получиться статистически значимые коэффициенты корреляции, поскольку эти три переменные измеряют некоторое фундаментальное свойство индивидуумов в выборке, а именно: их размеры. Точно так же вероятно, что при вычислении корреляций между V 2 , V 4 и V 6 тоже будут получены достаточно высокие коэффициенты корреляции, поскольку посещение лекций и самостоятельные занятия будут способствовать получению более высоких оценок по изучаемому предмету.

Таким образом, из всего возможного массива коэффициентов, который получается путем перебора пар коррелируемых признаков V 1 и V 2 , V t и V 3 и т.д., предположительно выделятся два блока статистически значимых корреляций. Остальная часть корреляций - между признаками, входящими в разные блоки, вряд ли будет иметь статистически значимые коэффициенты, поскольку связи между такими признаками, как размер конечности и успеваемость по предмету, имеют, скорее всего, случайный характер. Итак, содержательный анализ 6 наших переменных показывает, что они, по сути дела, измеряют только две обобщенные характеристики, а именно: размеры тела и степень подготовленности по предмету.

К полученной матрице интеркорреляций, т.е. вычисленным попарно коэффициентам корреляций между всеми шестью переменными V 1 - V 6 , допустимо применить факторный анализ. Его можно проводить и вручную, с помощью калькулятора, однако процедура подобной статистической обработки очень трудоемка. По этой причине в настоящее время факторный анализ проводится на компьютерах, как правило, с помощью стандартных статистических пакетов. Во всех современных статистических пакетах есть программы для корреляционного и факторного анализов. Компьютерная программа по факторному анализу по существу пытается «объяснить» корреляции между переменными в терминах небольшого числа факторов (в нашем примере двух).

Предположим, что, используя компьютерную программу, мы получили матрицу интеркорреляций всех шести переменных и подвергли ее факторному анализу. В результате факторного анализа получилась таблица 13.1, которую называют «факторной матрицей», или «факторной структурной матрицей».

Таблица 13.1

Переменная	Фактор 1	Фактор 2
V 1	0,91	0,01
V 2	0,20	0,96
V 3	0,94	-0,15
V 4	0,11	0,85
V 5	0,89	0,07
V 6	-0,13	0,93

По традиции факторы представляются в таблице в виде столбцов, а переменные в виде строк. Заголовки столбцов таблицы 13.1 соответствуют номерам выделенных факторов, но более точно было бы их называть «факторные нагрузки», или «веса», по фактору 1, то же самое по фактору 2. Как указывалось выше, факторные нагрузки, или веса, представляют собой корреляции между соответствующей переменной и данным фактором. Например, первое число 0,91 в первом факторе означает, что корреляция между первым фактором и переменной V 1 равна 0,91. Чем выше факторная нагрузка по абсолютной величине, тем больше ее связь с фактором.

Из таблицы 13.1 видно, что переменные V 1 V 3 и V 5 имеют большие корреляции с фактором 1 (фактически переменная 3 имеет корреляцию близкую к 1 с фактором 1). В то же время переменные V 2 , V 3 и У 5 имеют корреляции близкие к 0 с фактором 2. Подобно этому фактор 2 высоко коррелирует с переменными V 2 , V 4 и V 6 и фактически не коррелирует с переменными V 1 , V 3 и V 5

В данном примере, очевидно, что существуют две структуры корреляций, и, следовательно, вся информация таблицы 13.1 определяется двумя факторами. Теперь начинается заключительный этап работы - интерпретация полученных данных. Анализируя факторную матрицу, очень важно учитывать знаки факторных нагрузок в каждом факторе. Если в одном и том же факторе встречаются нагрузки с противоположными знаками, это означает, что между переменными, имеющими противоположные знаки, существует обратно пропорциональная зависимость.

Отметим, что при интерпретации фактора для удобства можно изменить знаки всех нагрузок по данному фактору на противоположные.

Факторная матрица показывает также, какие переменные образуют каждый фактор. Это связано, прежде всего, с уровнем значимости факторного веса. По традиции минимальный уровень значимости коэффициентов корреляции в факторном анализе берется равным 0,4 или даже 0,3 (по абсолютной величине), поскольку нет специальных таблиц, по которым можно было бы определить критические значения для уровня значимости в факторной матрице. Следовательно, самый простой способ увидеть какие переменные «принадлежат» фактору – это значит отметить те из них, которые имеют нагрузки выше, чем 0,4 (или меньше чем - 0,4). Укажем, что в компьютерных пакетах иногда уровень значимости факторного веса определяется самой программой и устанавливается на более высоком уровне, например 0,7.

Так, из таблицы 13.1, следует вывод, что фактор 1 - это сочетание переменных V 1 К 3 и V 5 (но не V 1 , K 4 и V 6 , поскольку их факторные нагрузки по модулю меньше чем 0,4). Подобно этому фактор 2 представляет собой сочетание переменных V 2 , V 4 и V 6 .

Выделенный в результате факторизации фактор представляет собой совокупность тех переменных из числа включенных в анализ, которые имеют значимые нагрузки. Нередко случается, однако, что в фактор входит только одна переменная со значимым факторным весом, а остальные имеют незначимую факторную нагрузку. В этом случае фактор будет определяться по названию единственной значимой переменной.

В сущности, фактор можно рассматривать как искусственную «единицу» группировки переменных (признаков) на основе имеющихся между ними связей. Эта единица является условной, потому что, изменив определенные условия процедуры факторизации матрицы интеркорреляций, можно получить иную факторную матрицу (структуру). В новой матрице может оказаться иным распределение переменных по факторам и их факторные нагрузки.

В связи с этим в факторном анализе существует понятие «простая структура». Простой называют структуру факторной матрицы, в которой каждая переменная имеет значимые нагрузки только по одному из факторов, а сами факторы ортогональны, т.е. не зависят друг от друга. В нашем примере два общих фактора независимы. Факторная матрица с простой структурой позволяет провести интерпретацию полученного результата и дать наименование каждому фактору. В нашем случае фактор первый - «размеры тела», фактор второй - «уровень подготовленности».

Сказанное выше не исчерпывает содержательных возможностей факторной матрицы. Из нее можно извлечь дополнительные характеристики, позволяющие более детально исследовать связи переменных и факторов. Эти характеристики называются «общность» и «собственное значение» фактора.

Однако, прежде чем представить их описание, укажем на одно принципиально важное свойство коэффициента корреляции, благодаря которому получают эти характеристики. Коэффициент корреляции, возведенный в квадрат (т.е. помноженный сам на себя), показывает, какая часть дисперсии (вариативности) признака является общей для двух переменных, или, говоря проще, насколько сильно эти переменные перекрываются. Так, например, две переменные с корреляцией 0,9 перекрываются со степенью 0,9 х 0,9 = 0,81. Это означает, что 81% дисперсии той и другой переменной являются общими, т.е. совпадают. Напомним, что факторные нагрузки в факторной матрице - это коэффициенты корреляции между факторами и переменными, поэтому, возведенная в квадрат факторная нагрузка характеризует степень общности (или перекрытия) дисперсий данной переменной и данного фактором.

Если полученные факторы не зависят друг от друга («ортогональное» решение), по весам факторной матрицы можно определить, какая часть дисперсии является общей для переменной и фактора. Вычислить, какая часть вариативности каждой переменной совпадает с вариативностью факторов, можно простым суммированием квадратов факторных нагрузок по всем факторам. Из таблицы 13.1, например, следует, что 0,91 × 0,91 + + 0,01 × 0,01 = 0,8282, т.е. около 82% вариативности первой переменной «объясняется» двумя первыми факторами. Полученная величина называется общностью переменной, в данном случае переменной V 1

Переменные могут иметь разную степень общности с факторами. Переменная с большей общностью имеет значительную степень перекрытия (большую долю дисперсии) с одним или несколькими факторами. Низкая общность подразумевает, что все корреляции между переменными и факторами невелики. Это означает, что ни один из факторов не имеет совпадающей доли вариативности с данной переменной. Низкая общность может свидетельствовать о том, что переменная измеряет нечто качественно отличающееся от других переменных, включенных в анализ. Например, одна переменная, связанная с оценкой мотивации среди заданий, оценивающих способности, будет иметь общность с факторами способностей близкую к нулю.

Малая общность может также означать, что определенное задание испытывает на себе сильное влияние ошибки измерения или крайне сложно для испытуемого. Возможно, напротив, также, что задание настолько просто, что каждый испытуемый дает на него правильный ответ, или задание настолько нечетко по содержанию, что испытуемый не понимает суть вопроса. Таким образом, низкая общность подразумевает, что данная переменная не совмещается с факторами по одной из причин: либо переменная измеряет другое понятие, либо переменная имеет большую ошибку измерения, либо существуют искажающие дисперсию признака различия между испытуемыми в вариантах ответа на это задание.

Наконец, с помощью такой характеристики, как собственное значение фактора, можно определить относительную значимость каждого из выделенных факторов. Для этого надо вычислить, какую часть дисперсии (вариативности) объясняет каждый фактор. Тот фактор, который объясняет 45% дисперсии (перекрытия) между переменными в исходной корреляционной матрице, очевидно, является более значимым, чем другой, который объясняет только 25% дисперсии. Эти рассуждения, однако, допустимы, если факторы ортогональны, иначе говоря, не зависят друг от друга.

Для того чтобы вычислить собственное значение фактора, нужно возвести в квадрат факторные нагрузки, и сложить их по столбцу. Используя данные таблицы 13.1 можно убедиться, что собственное значение фактора 1 составляет (0,91 × 0,91 + 0,20 × 0,20 + 0,94 × 0,94 + 0,11 × 0,11 + 0,84 × 0,84 + (- 0,13) ×

× (-0,13)) = 2,4863. Если собственное значение фактора разделить на число переменных (6 в нашем примере), то полученное число покажет, какая доля дисперсии объясняется данным фактором. В нашем случае получится 2,4863∙100%/6 = 41,4%. Иными словами, фактор 1 объясняет около 41% информации (дисперсии) в исходной корреляционной матрице. Аналогичный подсчет для второго фактора даст 41,5%. В сумме это будет составлять 82,9%.

Таким образом, два общих фактора, будучи объединены, объясняют только 82,9% дисперсии показателей исходной корреляционной матрицы. Что случилось с «оставшимися» 17,1%? Дело в том, что, рассматривая корреляции между 6 переменными, мы отмечали, что корреляции распадаются на два отдельных блока, и поэтому решили, что логично анализировать материал в понятиях двух факторов, а не 6, как и количество исходных переменных. Другими словами, число конструктов, необходимых, чтобы описать данные, уменьшилось с 6 (число переменных) до 2 (число общих факторов). В результате факторизации часть информации в исходной корреляционной матрице была принесена в жертву построению двухфакторной модели. Единственным условием, при котором информация не утрачивается, было бы рассмотрение шестифакторной модели.

После того как уравнение регрессии построено и с помощью коэффициента детерминации оценена его точность, остается открытым вопрос за счет чего достигнута эта точность и соответственно можно ли этому уравнению доверять. Дело в том, что уравнение регрессии строилось не по генеральной совокупности, которая неизвестна, а по выборке из нее. Точки из генеральной совокупности попадают в выборку случайным образом, по этому в соответствии с теорией вероятности среди прочих случаев возможен вариант, когда выборка из “широкой” генеральной совокупности окажется “узкой” (рис. 15).

Рис. 15. Возможный вариант попадания точек в выборку из генеральной совокупности.

В этом случае:

а) уравнение регрессии, построенное по выборке, может значительно отличаться от уравнения регрессии для генеральной совокупности, что приведет к ошибкам прогноза;

б) коэффициент детерминации и другие характеристики точности окажутся неоправданно высокими и будут вводить в заблуждение о прогнозных качествах уравнения.

В предельном случае не исключен вариант, когда из генеральной совокупности представляющей собой облако с главной осью параллельной горизонтальной оси (отсутствует связь между переменными) за счет случайного отбора будет получена выборка, главная ось которой окажется наклоненной к оси. Таким образом, попытки прогнозировать очередные значения генеральной совокупности опираясь на данные выборки из нее чреваты не только ошибками в оценке силы и направления связи между зависимой и независимой переменными, но и опасностью найти связь между переменными там, где на самом деле ее нет.

В условиях отсутствия информации обо всех точках генеральной совокупности единственный способ уменьшить ошибки в первом случае заключается в использовании при оценке коэффициентов уравнения регрессии метода, обеспечивающего их несмещенность и эффективность. А вероятность наступления второго случая может быть значительно снижена благодаря тому, что априори известно одно свойство генеральной совокупности с двумя независимыми друг от друга переменными – в ней отсутствует именно эта связь. Достигается это снижение за счет проверки статистической значимости полученного уравнения регрессии.

Один из наиболее часто используемых вариантов проверки заключается в следующем. Для полученного уравнения регрессии определяется -статистика - характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии. Уравнение для определения -статистики в случае многомерной регрессии имеет вид:

где: - объясненная дисперсия - часть дисперсии зависимой переменной Y которая объяснена уравнением регрессии;

Остаточная дисперсия - часть дисперсии зависимой переменной Y которая не объяснена уравнением регрессии, ее наличие является следствием действия случайной составляющей;

Число точек в выборке;

Число переменных в уравнении регрессии.

Как видно из приведенной формулы, дисперсии определяются как частное от деления соответствующей суммы квадратов на число степеней свободы. Число степеней свободы это минимально необходимое число значений зависимой переменной, которых достаточно для получения искомой характеристики выборки и которые могут свободно варьироваться с учетом того, что для этой выборки известны все другие величины, используемые для расчета искомой характеристики.

Для получения остаточной дисперсии необходимы коэффициенты уравнения регрессии. В случае парной линейной регрессии коэффициентов два, по этому в соответствии с формулой (принимая ) число степеней свободы равно . Имеется в виду, что для определения остаточной дисперсии достаточно знать коэффициенты уравнения регрессии и только значений зависимой переменной из выборки. Оставшиеся два значения могут быть вычислены на основании этих данных, а значит, не являются свободно варьируемыми.

Для вычисления объясненной дисперсии значений зависимой переменной вообще не требуются, так как ее можно вычислить, зная коэффициенты регрессии при независимых переменных и дисперсию независимой переменной. Для того чтобы убедиться в этом, достаточно вспомнить приводившееся ранее выражение . По этому число степеней свободы для остаточной дисперсии равно числу независимых переменных в уравнении регрессии (для парной линейной регрессии ).

В результате -критерий для уравнения парной линейной регрессии определяется по формуле:

В теории вероятности доказано, что -критерий уравнения регрессии, полученного для выборки из генеральной совокупности у которой отсутствует связь между зависимой и независимой переменной имеет распределение Фишера, достаточно хорошо изученное. Благодаря этому для любого значения -критерия можно рассчитать вероятность его появления и наоборот, определить то значение -критерия которое он не сможет превысить с заданной вероятностью.

Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости .

Уровень значимости – это допустимая вероятность совершить ошибку первого рода – отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет.

Обычно уровень значимости принимается равным 5% или 1%. Чем выше уровень значимости (чем меньше ), тем выше уровень надежности теста, равный , т.е. тем больше шанс избежать ошибки признания по выборке наличия связи у генеральной совокупности на самом деле несвязанных между собой переменных. Но с ростом уровня значимости возрастает опасность совершения ошибки второго рода – отвергнуть верную нулевую гипотезу, т.е. не заметить по выборке имеющуюся на самом деле связь переменных в генеральной совокупности. По этому, в зависимости от того, какая ошибка имеет большие негативные последствия, выбирают тот или иной уровень значимости.

Для выбранного уровня значимости по распределению Фишера определяется табличное значение вероятность превышения, которого в выборке мощностью , полученной из генеральной совокупности без связи между переменными, не превышает уровня значимости. сравнивается с фактическим значением критерия для регрессионного уравнения .

Если выполняется условие , то ошибочное обнаружение связи со значением -критерия равным или большим по выборке из генеральной совокупности с несвязанными между собой переменными будет происходить с вероятностью меньшей чем уровень значимости. В соответствии с правилом “очень редких событий не бывает”, приходим к выводу, что установленная по выборке связь между переменными имеется и в генеральной совокупности, из которой она получена.

Если же оказывается , то уравнение регрессии статистически не значимо. Иными словами существует реальная вероятность того, что по выборке установлена не существующая в реальности связь между переменными. К уравнению, не выдержавшему проверку на статистическую значимость, относятся так же, как и к лекарству с истекшим сроком годнос-

Ти – такие лекарства не обязательно испорчены, но раз нет уверенности в их качестве, то их предпочитают не использовать. Это правило не уберегает от всех ошибок, но позволяет избежать наиболее грубых, что тоже достаточно важно.

Второй вариант проверки, более удобный в случае использования электронных таблиц, это сопоставление вероятности появления полученного значения -критерия с уровнем значимости. Если эта вероятность оказывается ниже уровня значимости , значит уравнение статистически значимо, в противном случае нет.

После того как выполнена проверка статистической значимости регрессионного уравнения в целом полезно, особенно для многомерных зависимостей осуществить проверку на статистическую значимость полученных коэффициентов регрессии. Идеология проверки такая же как и при проверке уравнения в целом но в качестве критерия используется -критерий Стьюдента, определяемый по формулам:

где: , - значения критерия Стьюдента для коэффициентов и соответственно;

- остаточная дисперсия уравнения регрессии;

Число точек в выборке;

Число переменных в выборке, для парной линейной регрессии .

Полученные фактические значения критерия Стьюдента сравниваются с табличными значениями , полученными из распределения Стьюдента. Если оказывается, что , то соответствующий коэффициент статистически значим, в противном случае нет. Второй вариант проверки статистической значимости коэффициентов – определить вероятность появления критерия Стьюдента и сравнить с уровнем значимости .

Для переменных, чьи коэффициенты оказались статистически не значимы, велика вероятность того, что их влияние на зависимую переменную в генеральной совокупности вообще отсутствует. По этому или необходимо увеличить число точек в выборке, тогда возможно коэффициент станет статистически значимым и заодно уточнится его значение, или в качестве независимых переменных найти другие, более тесно связанные с зависимой переменной. Точность прогнозирования при этом в обоих случаях возрастет.

В качестве экспрессного метода оценки значимости коэффициентов уравнения регрессии можно применять следующее правило – если критерий Стьюдента больше 3, то такой коэффициент, как правило, оказывается статистически значим. А вообще считается, что для получения статистически значимых уравнений регрессии необходимо, чтобы выполнялось условие .

Стандартная ошибка прогнозирования по полученному уравнению регрессии неизвестного значения при известном оценивают по формуле:

Таким образом прогноз с доверительной вероятностью 68% может быть представлен в виде:

В случае если требуется иная доверительная вероятность , то для уровня значимости необходимо найти критерий Стьюдента и доверительный интервал для прогноза с уровнем надежности будет равен .

Прогнозирование многомерных и нелинейных зависимостей

В случае если прогнозируемая величина зависит от нескольких независимых переменных, то в этом случае имеется многомерная регрессия вида:

где: - коэффициенты регрессии, описывающие влияние переменных на прогнозируемую величину.

Методика определения коэффициентов регрессии не отличается от парной линейной регрессии, особенно при использовании электронной таблицы, так как там применяется одна и та же функция и для парной и для многомерной линейной регрессии. При этом желательно чтобы между независимыми переменными отсутствовали взаимосвязи, т.е. изменение одной переменной не сказывалось на значениях других переменных. Но это требование не является обязательным, важно чтобы между переменными отсутствовали функциональные линейные зависимости. Описанные выше процедуры проверки статистической значимости полученного уравнения регрессии и его отдельных коэффициентов, оценка точности прогнозирования остается такой же как и для случая парной линейной регрессии. В тоже время применение многомерных регрессий вместо парной обычно позволяет при надлежащем выборе переменных существенно повысить точность описания поведения зависимой переменной, а значит и точность прогнозирования.

Кроме этого уравнения многомерной линейной регрессии позволяют описать и нелинейную зависимость прогнозируемой величины от независимых переменных. Процедура приведения нелинейного уравнения к линейному виду называется линеаризацией. В частности если эта зависимость описывается полиномом степени отличной от 1, то, осуществив замену переменных со степенями отличными от единицы на новые переменные в первой степени, получаем задачу многомерной линейной регрессии вместо нелинейной. Так, например если влияние независимой переменной описывается параболой вида

то замена позволяет преобразовать нелинейную задачу к многомерной линейной вида

Так же легко могут быть преобразованы нелинейные задачи у которых нелинейность возникает вследствие того, что прогнозируемая величина зависит от произведения независимых переменных. Для учета такого влияния необходимо ввести новую переменную равную этому произведению.

В тех случаях, когда нелинейность описывается более сложными зависимостями, линеаризация возможна за счет преобразования координат. Для этого рассчитываются значения и строятся графики зависимости исходных точек в различных комбинациях преобразованных переменных. Та комбинация преобразованных координат или преобразованных и не преобразованных координат, в которой зависимость ближе всего к прямой линии подсказывает замену переменных которая приведет к преобразованию нелинейной зависимости к линейному виду. Например, нелинейная зависимость вида

превращается в линейную вида

Полученные коэффициенты регрессии для преобразованного уравнения остаются несмещенными и эффективными, но проверка статистической значимости уравнения и коэффициентов невозможна

Проверка обоснованности применения метода наименьших квадратов

Применение метода наименьших квадратов обеспечивает эффективность и несмещенность оценок коэффициентов уравнения регрессии при соблюдении следующих условий (условий Гауса-Маркова):

3. значения не зависят друг от друга

4. значения не зависят от независимых переменных

Наиболее просто можно проверить соблюдение этих условий путем построения графиков остатков в зависимости от , затем от независимой (независимых) переменных. Если точки на этих графиках расположены в коридоре расположенном симметрично оси абсцисс и в расположении точек не просматриваются закономерности, то условия Гауса-Маркова выполнены и возможности повысить точность уравнения регрессии отсутствуют. Если это не так, то существует возможность существенно повысить точность уравнения и для этого необходимо обратиться к специальной литературе.

Оценив параметры a и b , мы получили уравнение регрессии, по которому можно оценить значения y по заданным значениям x . Естественно полагать, что расчетные значения зависимой переменной не будут совпадать с действительными значениями, так как линия регрессии описывает взаимосвязь лишь в среднем, в общем. Отдельные значения рассеяны вокруг нее. Таким образом, надежность получаемых по уравнению регрессии расчетных значений во многом определяется рассеянием наблюдаемых значений вокруг линии регрессии. На практике, как правило, дисперсия ошибок неизвестна и оценивается по наблюдениям одновременно с параметрами регрессии a и b . Вполне логично предположить, что оценка связана с суммой квадратов остатков регрессии. Величина является выборочной оценкой дисперсии возмущений , содержащихся в теоретической модели . Можно показать, что для модели парной регрессии

где - отклонение фактического значения зависимой переменной от ее расчетного значения.

Если , то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х.

Обычно на практике имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических . Этот разброс обусловлен как влиянием фактора х , т.е. регрессией y по х , (такую дисперсию называют объясненной, так как она объясняется уравнением регрессии),так и действием прочих причин (необъясненная вариация, случайная). Величина этих отклонений и лежит в основе расчета показателей качества уравнения.

Согласно основному положению дисперсионного анализа общая сумма квадратов отклонений зависимой переменной y от среднего значения может быть разложена на две составляющие: объясненную уравнением регрессии и необъясненную:

где - значения y , вычисленные по уравнению .

Найдем отношение суммы квадратов отклонений, объясненной уравнением регрессии, к общей сумме квадратов:

, откуда

. (7.6)

Отношение части дисперсии, объясненной уравнением регрессии к общей дисперсии результативного признака называется коэффициентом детерминации . Значение не может превзойти единицы и это максимальное значение будет только достигнуто при , т.е. когда каждое отклонение равно нулю и поэтому все точки диаграммы рассеяния в точности лежат на прямой.

Коэффициент детерминации характеризует долю объясненной регрессией дисперсии в общей величине дисперсии зависимой переменной. Соответственно величина характеризует долю вариации (дисперсии) у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов. Чем ближе к единице, тем выше качество модели.

При парной линейной регрессии коэффициент детерминации равен квадрату парного линейного коэффициента корреляции: .

Корень из этого коэффициента детерминации есть коэффициент (индекс) множественной корреляции, или теоретическое корреляционное отношение.

Для того чтобы узнать, действительно ли полученное при оценке регрессии значение коэффициента детерминации отражает истинную зависимость между y и x выполняют проверку значимости построенного уравнения в целом и отдельных параметров. Проверка значимости уравнения регрессии позволяет узнать, пригодно уравнение регрессии для практического использования, например, для прогноза или нет.

При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная гипотеза о значимости уравнения - гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации: .

Для проверки значимости модели регрессии используют F- критерий Фишера, вычисляемый как отношение суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы):

, (7.7)

где k – число независимых переменных.

После деления числителя и знаменателя соотношения (7.7) на общую сумму квадратов отклонений зависимой переменной, F- критерий может быть эквивалентно выражен на основе коэффициента :

Если нулевая гипотеза справедлива, то объясненная уравнением регрессии и необъясненная (остаточная) дисперсии не отличаются друг от друга.

Расчетное значение F- критерий сравнивается с критическим значением, которое зависит от числа независимых переменных k , и от числа степеней свободы (n-k-1) . Табличное (критическое) значение F- критерия – это максимальная величина отношений дисперсий, которое может иметь место при случайном расхождении их для заданного уровня вероятности наличия нулевой гипотезы. Если расчетное значение F- критерий больше табличного при заданном уровне значимости, то нулевая гипотеза об отсутствии связи отклоняется и делается вывод о существенности этой связи, т.е. модель считается значимой.

Для модели парной регрессии

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его коэффициентов. Для этого определяется стандартная ошибка каждого из параметров. Стандартные ошибки коэффициентов регрессии параметров определяются по формулам:

, (7.8)

(7.9)

Стандартные ошибки коэффициентов регрессии или среднеквадратические отклонения, рассчитанные по формулам (7.8,7.9), как правило, приводятся в результатах расчета модели регрессии в статистических пакетах.

Опираясь на среднеквадратические ошибки коэффициентов регрессии, проверяют значимость этих коэффициентов используя обычную схему проверки статистических гипотез.

В качестве основной гипотезы выдвигают гипотезу о незначимом отличии от нуля «истинного» коэффициента регрессии. Альтернативной гипотезой при этом является гипотеза обратная, т. е. о неравенстве нулю «истинного» параметра регрессии. Проверка этой гипотезы осуществляется с помощью t- статистики, имеющей t -распределение Стьюдента:

Затем расчетные значения t- статистики сравниваются с критическими значениями t- статистики, определяемыми по таблицам распределения Стьюдента. Критическое значение определяется в зависимости от уровня значимости α и числа степеней свободы, которое равно (n-k-1), п - число наблюдений, k - число независимых переменных. В случае линейной парной регрессии число степеней свободы равно (п- 2). Критическое значение также может быть вычислено на компьютере с помощью встроенной функции СТЬЮДРАСПОБР пакета Ехсеl.

Если расчетное значение t- статистики больше критического, то основную гипотезу отвергают и считают, что с вероятностью (1-α) «истинный» коэффициент регрессии значимо отличается от нуля, что является статистическим подтверждением существования линейной зависимости соответствующих переменных.

Если расчетное значение t- статистики меньше критического, то нет оснований отвергать основную гипотезу, т. е. «истинный» коэффициент регрессии незначимо отличается от нуля при уровне значимости α . В этом случае фактор, соответствующий этому коэффициенту должен быть исключен из модели.

Значимость коэффициента регрессии можно установить методом построения доверительного интервала. Доверительный интервал для параметров регрессии a и b определяют следующим образом:

где определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы (п- 2) для парной регрессии.

Поскольку коэффициенты регрессии в эконометрических исследованиях имеют четкую экономическую интерпретацию, доверительные интервалы не должны содержать нуль. Истинное значение коэффициента регрессии не может одновременно содержать положительные и отрицательные величины, в том числе и нуль, иначе мы получаем противоречивые результаты при экономической интерпретации коэффициентов, чего не может быть. Таким образом, коэффициент значим, если полученный доверительный интервал не накрывает нуль.

Пример 7.4. По данным примера 7.1:

а) Построить парную линейную модель регрессии зависимости прибыли от реализации от отпускной цены с использованием программных средств обработки данных.

б) Оценить значимость уравнения регрессии в целом, используя F- критерий Фишера при α=0,05.

в) Оценить значимость коэффициентов модели регрессии, используя t -критерий Стьюдента при α=0,05 и α=0,1.

Для проведения регрессионного анализа используем стандартную офисную программу EXCEL. Построение регрессионной модели проведем с помощью инструмента РЕГРЕССИЯ настройки ПАКЕТ АНАЛИЗА (рис.7.5), запуск которого осуществляется следующим образом:

СервисАнализ данныхРЕГРЕССИЯОК.

Рис.7.5. Использование инструмента РЕГРЕССИЯ

В диалоговом окне РЕГРЕССИЯ в поле Входной интервал Y необходимо ввести адрес диапазона ячеек, содержащих зависимую переменную. В поле Входной интервал Х нужно ввести адреса одного или нескольких диапазонов, содержащих значения независимых переменных Флажок Метки в первой строке – устанавливается в активное состояние, если выделены и заголовки столбцов. На рис. 7.6. показана экранная форма вычисления модели регрессии с помощью инструмента РЕГРЕССИЯ.

Рис. 7.6. Построение модели парной регрессии с помощью

инструмента РЕГРЕССИЯ

В результате работы инструмента РЕГРЕСИЯ формируется следующий протокол регрессионного анализа (рис.7.7).

Рис. 7.7. Протокол регрессионного анализа

Уравнение зависимости прибыли от реализации от отпускной цены имеет вид:

Оценку значимости уравнения регрессии проведем используя F- критерий Фишера. Значение F- критерий Фишера возьмем из таблицы «Дисперсионный анализ» протокола EXCEL (рис. 7.7.). Расчетное значение F- критерия 53,372. Табличное значение F- критерия при уровне значимости α=0,05 и числе степеней свободы составляет 4,964. Так как , то уравнение считается значимым.

Расчетные значения t -критерия Стьюдента для коэффициентов уравнения регрессии приведены в результативной таблице (рис. 7.7). Табличное значение t -критерия Стьюдента при уровне значимости α=0,05 и 10 степенях свободы составляет 2,228. Для коэффициента регрессии a , следовательно коэффициент a не значим. Для коэффициента регрессии b , следовательно, коэффициент b значим.

После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости производится на основе дисперсионного анализа.

Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части - объясненную и необъясненную:

или, соответственно:

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и уравнение должно иметь вид.

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы (df-degrees of freedom) - это число независимо варьируемых значений признака.

Для общей СКО требуется (n-1) независимых отклонений,

Факторная СКО имеет одну степень свободы, и

Таким образом, можем записать:

Из этого баланса определяем, что = n-2.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: - общая дисперсия, - факторная, - остаточная.

Анализ статистической значимости коэффициентов линейной регрессии

Хотя теоретические значения коэффициентов уравнения линейной зависимости предполагаются постоянными величинами, оценки а и b этих коэффициентов, получаемые в ходе построения уравнения по данным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик.

Дисперсии коэффициентов рассчитываются по формулам:

Дисперсия коэффициента регрессии:

где - остаточная дисперсия на одну степень свободы.

Дисперсия параметра:

Отсюда стандартная ошибка коэффициента регрессии определяется по формуле:

Стандартная ошибка параметра определяется по формуле:

Они служат для проверки нулевых гипотез о том, что истинное значение коэффициента регрессии b или свободного члена a равно нулю: .

Альтернативная гипотеза имеет вид: .

t - статистики имеют t - распределение Стьюдента с степенями свободы. По таблицам распределения Стьюдента при определённом уровне значимости б и степенях свободы находят критическое значение.

Если, то нулевая гипотеза должна быть отклонена, коэффициенты считаются статистически значимыми.

Если, то нулевая гипотеза не может быть отклонена. (В случае, если коэффициент b статистически незначим, уравнение должно иметь вид, и это означает, что связь между признаками отсутствует. В случае, если коэффициент а статистически незначим, рекомендуется оценить новое уравнение в виде).

Интервальные оценки коэффициентов линейного уравнения регрессии:

Доверительный интервал для а: .

Доверительный интервал для b:

Это означает, что с заданной надёжностью (где - уровень значимости) истинные значения а, b находятся в указанных интервалах.

Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль.

Анализ статистической значимости уравнения в целом.

Распределение Фишера в регрессионном анализе

Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор х не оказывает влияния на результат y (или).

Величина F - критерия связана с коэффициентом детерминации. В случае множественной регрессии:

где m - число независимых переменных.

В случае парной регрессии формула F - статистики принимает вид:

При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы: - в случае множественной регрессии, - для парной регрессии.

Если, то отклоняется и делается вывод о существенности статистической связи между y и x.

Если, то вероятность уравнение регрессии считается статистически незначимым, не отклоняется.

Замечание. В парной линейной регрессии. Кроме того, поэтому. Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число.

Пусть, например, вначале была оценена множественная линейная регрессия по п наблюдениям с т объясняющими переменными, и коэффициент детерминации равен, затем последние k переменных исключены из числа объясняющих, и по тем же данным оценено уравнение, для которого коэффициент детерминации равен (, т.к. каждая дополнительная переменная объясняет часть, пусть небольшую, вариации зависимой переменной).

Для того, чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов при исключённых переменных, рассчитывается величина

имеющая распределение Фишера с степенями свободы.

По таблицам распределения Фишера, при заданном уровне значимости, находят. И если, то нулевая гипотеза отвергается. В таком случае исключать все k переменных из уравнения некорректно.

Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких k новых объясняющих переменных.

В этом случае рассчитывается F - статистика

имеющая распределение. И если она превышает критический уровень, то включение новых переменных объясняет существенную часть необъяснённой ранее дисперсии зависимой переменной (т.е. включение новых объясняющих переменных оправдано).

Замечания. 1. Включать новые переменные целесообразно по одной.

2. Для расчёта F - статистики при рассмотрении вопроса о включении объясняющих переменных в уравнение желательно рассматривать коэффициент детерминации с поправкой на число степеней свободы.

F - статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений.

Пусть имеются 2 выборки, содержащие, соответственно, наблюдений. Для каждой из этих выборок оценено уравнение регрессии вида. Пусть СКО от линии регрессии (т.е.) равны для них, соответственно, .

Проверяется нулевая гипотеза: о том, что все соответствующие коэффициенты этих уравнений равны друг другу, т.е. уравнение регрессии для этих выборок одно и то же.

Пусть оценено уравнение регрессии того же вида сразу для всех наблюдений, и СКО.

Тогда рассчитывается F - статистика по формуле:

Она имеет распределение Фишера с степенями свободы. F - статистика будет близкой к нулю, если уравнение для обеих выборок одинаково, т.к. в этом случае. Т.е. если, то нулевая гипотеза принимается.

Если же, то нулевая гипотеза отвергается, и единое уравнение регрессии построить нельзя.

hram-bal.ru