Параметры линейной парной регрессии. Построение линейного уравнения парной регрессии

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http :// www . allbest . ru /

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Комсомольский-на-Амуре государственный технический университет»

Факультет экономики и менеджмента

Кафедра «Экономики, финансов и бухгалтерского учета»

РАСЧЁТНО-ГРАФИЧЕСКОЕ ЗАДАНИЕ

по дисциплине «Эконометрика»

Студент группы

А.Ю. Зайченко

Преподаватель

И.И. Антонова

Таблица 1

Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,

Среднедневная заработная плата, руб.,

Требуется:

1. Построить линейное уравнение парной регрессии от.

3. Оценить статистическую значимость параметров регрессии и корреляции с помощью -критерия Фишера и -критерия Стьюдента.

4. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2. линейный корреляция аппроксимация регрессия

Таблица 2

Среднее значение

Получено уравнение регрессии:

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,89 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

Это означает, что 51% вариации заработной платы () объясняется вариацией фактора - среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Качество построенной модели оценивается как хорошее, так как не превышает 8-10%.

3. Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера. Фактическое значение -критерия:

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет. Так как, то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение -критерия для числа степеней свободы и составит.

Определим случайные ошибки, :

Фактические значения -статистики превосходят табличное значение:

поэтому параметры, и не случайно отличаются от нуля, а статистически значимы. Рассчитаем доверительные интервалы для параметров регрессии и. Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

тогда прогнозное значение заработной платы составит:

Ошибка прогноза составит:

Предельная ошибка прогноза, которая в случаев не будет превышена, составит:

Доверительный интервал прогноза:

Выполненный прогноз среднемесячной заработной платы является надежным () и находится в пределах от 131,66 руб. до 190,62 руб. В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую (рисунок1)

Рисунок 1

Размещено на Allbest.ru

Подобные документы

    Построение линейного уравнения парной регрессии, расчет линейного коэффициента парной корреляции и средней ошибки аппроксимации. Определение коэффициентов корреляции и эластичности, индекса корреляции, суть применения критерия Фишера в эконометрике.

    контрольная работа , добавлен 05.05.2010

    Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.

    контрольная работа , добавлен 14.05.2008

    Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.

    контрольная работа , добавлен 11.12.2010

    Экономическая интерпретация коэффициента регрессии. Нахождение статочной суммы квадратов и оценка дисперсии остатков. Проверка значимости параметров уравнения регрессии с помощью t-критерия Стьюдента. Расчет средней относительной ошибки аппроксимации.

    контрольная работа , добавлен 23.03.2010

    Построение доверительного интервала для коэффициента регрессии. Определение ошибки аппроксимации, индекса корреляции и F-критерия Фишера. Оценка эластичности изменения материалоемкости продукции. Построение линейного уравнения множественной регрессии.

    контрольная работа , добавлен 11.04.2015

    Расчет параметров уравнения линейной регрессии, оценка тесноты связи с помощью показателей корреляции и детерминации. Определение средней ошибки аппроксимации. Статистическая надежность моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа , добавлен 17.10.2009

    Определение количественной зависимости массы пушного зверька от его возраста. Построение уравнения парной регрессии, расчет его параметров и проверка адекватности. Оценка статистической значимости параметров регрессии, расчет их доверительного интервала.

    лабораторная работа , добавлен 02.06.2014

    Построение гипотезы о форме связи денежных доходов на душу населения с потребительскими расходами в Уральском и Западно-Сибирском регионах РФ. Расчет параметров уравнений парной регрессии, оценка их качества с помощью средней ошибки аппроксимации.

    контрольная работа , добавлен 05.11.2014

    Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа , добавлен 28.03.2018

    Построение поля корреляции. Расчет параметров уравнений парной регрессии. Зависимость средней ожидаемой продолжительности жизни от некоторых факторов. Изучение "критерия Фишера". Оценка тесноты связи с помощью показателей корреляции и детерминации.

И корреляция

1.1. Понятие регрессии

Парной регрессией называется уравнение связи двух переменных у и х

вида y = f (x ),

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением: y = a + b × x +e .

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но ли-

нейных по оцениваемым параметрам:

· полиномы разных степеней

· равносторонняя гипербола:

Примеры регрессий, нелинейных по оцениваемым параметрам:

· степенная

· показательная

· экспоненциальная

Наиболее часто применяются следующие модели регрессий:

– прямой

– гиперболы

– параболы

показательной функции

– степенная функция

1.2. Построение уравнения регрессии

Постановка задачи. По имеющимся данным n наблюдений за совместным

изменением двух параметров x и y {(xi ,yi ), i=1,2,...,n} необходимо определить

аналитическую зависимость ŷ=f(x) , наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости

ŷ=f(x) );

– оценка параметров выбранной модели.

1.2.1. Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии D ост или средней ошибки аппроксимации , рассчитанных для различных

моделей регрессии (метод перебора).

1.2.2. Оценка параметров модели

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

В случае линейной регрессии параметры а и b находятся из следующей

системы нормальных уравнений метода МНК:

(1.1)

Можно воспользоваться готовыми формулами, которые вытекают из этой

(1.2)

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x , y ) → (x’ , y’ ), система нормальных уравнений имеет

вид (1.1) в преобразованных переменных x’ , y’ .

Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения .

Гиперболическая регрессия :

x’ = 1/x ; y’ = y .

Уравнения (1.1) и формулы (1.2) принимают вид

Экспоненциальная регрессия:

Линеаризующее преобразование: x’ = x ; y’ = lny .

Модифицированная экспонента : , (0 < a 1 < 1).

Линеаризующее преобразование: x’ = x ; y’ = ln y – К│.

Величина предела роста K выбирается предварительно на основе анализа

поля корреляций либо из качественных соображений. Параметр a 0 берется со

знаком «+», если y х > K и со знаком «–» в противном случае.

Степенная функция:

Линеаризующее преобразование: x’ = ln x ; y’ = ln y .

Показательная функция:

Линеаризующее преобразование: x’ = x ; y’ = lny .

https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">

Парабола второго порядка :

Парабола второго порядка имеет 3 параметра a 0, a 1, a 2, которые определяются из системы трех уравнений

1.3. Оценка тесноты связи

Тесноту связи изучаемых явлений оценивает линейный коэффициент

парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)

и индекс корреляции ρxy для нелинейной регрессии

Имеет место соотношение

Долю дисперсии, объясняемую регрессией , в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Для оценки качества построенной модели регрессии можно использовать

показатель (коэффициент, индекс) детерминации R 2 либо среднюю ошибку аппроксимации.

Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение

расчетных значений от фактических

Построенное уравнение регрессии считается удовлетворительным, если

значение не превышает 10–12 %.

1.4. Оценка значимости уравнения регрессии, его коэффициентов,

коэффициента детерминации

Оценка значимости всего уравнения регрессии в целом осуществляется с

помощью F -критерия Фишера.

F- критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение

фактического F факт и критического (табличного) F табл значений F- критерия

Фишера.

F факт определяется из соотношения значений факторной и остаточной

дисперсий, рассчитанных на одну степень свободы

где n – число единиц совокупности; m – число параметров при переменных.

Для линейной регрессии m = 1 .

Для нелинейной регрессии вместо r 2 xy используется R 2.

F табл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m , k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α вероятность отвергнуть правильную гипотезу

при условии, что она верна. Обычно величина α принимается равной 0,05 или

Если F табл < F факт, то Н0 -гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется

t- критерий Стьюдента и рассчитываются доверительные интервалы каждого

из показателей.

Согласно t- критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия t факт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки

Стандартные ошибки параметров линейной регрессии и коэффициента

корреляции определяются по формулам

Сравнивая фактическое и критическое (табличное) значения t- статистики

t табл и t факт принимают или отвергают гипотезу Но.

t табл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n– 2 и уровне значимости α.

Связь между F- критерием Фишера (при k 1 = 1; m =1) и t- критерием Стьюдента выражается равенством

Если t табл < t факт, то Но отклоняется, т. е. a, b и не случайно отличаются

от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">

F табл определяется из таблицы при степенях свободы k 1 = 1, k 2 = n –2 и при

заданном уровне значимости α. Если F табл < F факт, то признается статистическая значимость коэффициента детерминации. В формуле (1.6) величина m означает число параметров при переменных в соответствующем уравнении регрессии.

1.5. Расчет доверительных интервалов

Рассчитанные значения показателей (коэффициенты a , b , ) являются

приближенными, полученными на основе имеющихся выборочных данных.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов.

Доверительные интервалы определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью уверенности, соответствующей заданному уровню значимости α.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку Δ для каждого показателя:

Величина t табл представляет собой табличное значение t- критерия Стьюдента под влиянием случайных факторов при степени свободы k = n –2 и заданном уровне значимости α.

Формулы для расчета доверительных интервалов имеют следующий вид:

https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">

где t γ – значение случайной величины, подчиняющейся стандартному нормальному распределению, соответствующее вероятности γ = 1 – α/2 (α – уровень значимости);

z’ = Z (rxy) – значение Z- распределения Фишера, соответствующее полученному значению линейного коэффициента корреляции rxy .

Граничные значения доверительного интервала (r– , r+ ) для rxy получаются

из граничных значений доверительного интервала (z– , z+ ) для z с помощью

функции, обратной Z- распределению Фишера

1.6. Точечный и интервальный прогноз по уравнению линейной

регрессии

Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии

соответствующего (прогнозного
) значения x p

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin, уpmax интервала, содержащего точную величину для прогнозного значения https://pandia.ru/text/78/146/images/image050_2.jpg" width="37" height="44 src=">

и затем строится доверительный интервал прогноза , т. е. определяются нижняя и верхняя границы интервала прогноза

Контрольные вопросы:

1. Что понимается под парной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие методы применяются для выбора вида модели регрессии?

4. Какие функции чаще всего используются для построения уравнения парной регрессии?

5. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае линейной регрессии?

6. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае гиперболической, показательной регрессии?

7. По какой формуле вычисляется линейный коэффициент парной корреляции r xy ?

8. Как строится доверительный интервал для линейного коэффициента парной корреляции?

9. Как вычисляется индекс корреляции?

10. Как вычисляется и что показывает индекс детерминации?

11. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

12. Как строится доверительный интервал прогноза в случае линейной регрессии?

Лабораторная работа № 1

Задание.1 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):

1. Вычислить линейный коэффициент парной корреляции.

2. Проверить значимость коэффициента парной корреляции.

3. Построить доверительный интервал для линейного коэффициента парной корреляции.

Задание. 2 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):

1. Построить предложенные уравнения регрессии, включая линейную регрессию.

2. Вычислить индексы парной корреляции для каждого уравнения.

3. Проверить значимость уравнений регрессии и отдельных коэффициентов линейного уравнения.

4. Определить лучшее уравнение регрессии на основе средней ошибки аппроксимации.

5. Построить интервальный прогноз для значения x = x max для линейного

уравнения регрессии.

Требования к оформлению результатов

Отчет о лабораторной работе должен содержать разделы:

1. Описание задания;

2. Описание решения лабораторной работы (по этапам);

3. Изложение полученных результатов.

Таблица П1

Исходные данные к лабораторным работам1, 2

Наличие предметов длительного пользования в домашних хозяйствах по регионам Российской Федерации (европейская часть территории без республик Северного Кавказа) (по материалам выборочного обследования бюджетов домашних хозяйств; на 100 домохозяйств; штук)

Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:
  • параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
  • тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α

Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования .
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.


3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x y x 2 y 2 x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью

Наиболее простой с точки зрения понимания, интерпретации и техники расчетов является линейная форма регрессии .

Уравнение линейной парной регрессии , где

a 0 , a 1 - параметры модели, ε i - случайная величина (величина остатка).

Параметры модели и их содержание:


Уравнение регрессии дополняется показателем тесноты связи. В качестве такого показателя выступает линейный коэффициент корреляции , который рассчитывают по формуле:

или .

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации . Коэффициент детерминации характеризует долю дисперсии результативного признака , объясняемую регрессией, в общей дисперсии результативного признака:

,

где

.

Соответственно величина характеризует долю дисперсии , вызванную влиянием остальных, неучтенных в модели, факторов.

После того как уравнение регрессии построено, выполняется проверка его адекватности и точности.Эти свойства модели исследуются на основе анализа ряда остатков ε i (отклонений расчетных значений от фактических).

Уровень ряда остатков

Корреляционный и регрессионный анализ проводится для ограниченной по объему совокупности. В связи с этим показатели регрессии, корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенной модели.

Проверка адекватности модели заключается в определении значимости модели и установление наличия или отсутствия систематической ошибки.

Значения у 1 соответствующие данным х i при теоретических значениях а 0 и а 1 , случайные. Случайными будут и рассчитанные по ним значения коэффициентов а 0 и а 1 .

Проверка значимостиотдельных коэффициентов регрессии проводится по t-критерию Стьюдента путем проверки гипотезы равенстве нулю каждого коэффициента регрессии. При этом выясняют, насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатом действия случайных величин. Для соответствующих коэффициентов регрессии применяют соответствующие формулы.

Формулы для определения t- критерия Стьюдента

где

S a 0 ,S a 1 - стандартные отклонения свободного члена и коэффициента регрессии. Определяются по формулам

где

S ε - стандартное отклонение остатков модели (стандартная ошибка оценки), которая определяется по формуле

Расчетные значения t-критерия сравнивают с табличным значением критерия t αγ , .которое определяется при (n — k — 1) степенях свободы и соответствующем уровне значимости α. Если расчетное значение t -критерия превосходит его табличное значение t αγ ,то параметр признается значимым. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Оценка значимости уравнения регрессии в целом производится на основе - критерия Фишера , которому предшествует дисперсионный анализ.

Общая сумма квадратов отклонений переменной от среднего значения раскладывается на две части - «объясненную» и «необъясненную»:

Общая сумма квадратов отклонений;

Сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);


- остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.

Схема дисперсионного анализа имеет вид, представленный в таблице 35 ( - число наблюдений, - число параметров при переменной ).

Таблица 35 - Схема дисперсионного анализа

Компоненты дисперсии Сумма квадратов Число степеней свободы Дисперсия на одну степень свободы
Общая
Факторная
Остаточная

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину -критерия Фишера:

Для проверки значимости уравнения регрессии в целом используют F-критерий Фишера . В случае парной линейной регрессии значимость модели регрессии определяется по следующей формуле: .

Если при заданном уровне значимости расчетное значение F -критерия с γ 1 =k, γ 2 =(п - k - 1) степенями свободы больше табличного, то модель считается значимой, гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Проверка наличия или отсутствия систематической ошибки (выполнения предпосылок метода наименьших квадратов — МНК) осуществляется на основе анализа ряда остатков. Расчет случайных ошибок параметров линейной регрессии и коэффициента корреляции производят по формулам

,

Для проверки свойства случайности ряда остатков можно использовать критерий поворотных точек (пиков). Точка считается поворотной, если выполняются следующие условия: ε i -1 < ε i > ε i +1 или ε i -1 > ε i < ε i +1

Далее подсчитывается число поворотных точек р. Критерием случайности с 5 % уровнем значимости, т.е. с доверительной вероятностью 95%, является выполнение неравенства:

Квадратные скобки означают, что берется целая часть числа, заключенного в скобки. Если неравенство выполняется, то модель считается адекватной.

Для проверки равенства математического ожидания остаточной последовательности нулю вычисляется среднее значение ряда остатков:

Если = 0, то считается, что модель не содержит постоянной систематической ошибки и адекватна по критерию нулевого среднего.

Если ≠ 0, то проверяется нулевая гипотеза о равенстве нулю математического ожидания. Для этого вычисляют t -критерий Стьюдента по формуле:

где S ε — стандартное отклонение остатков модели (стандартная ошибка).

Значение t -критерий сравнивают с табличным t αγ . Если выполняется неравенство t > t αγ , то модель неадекватна по данному критерию

Дисперсия уровней ряда остатков должна быть одинаковой для всех значений х (свойство гомоскедастичности ).Если это условие не соблюдается, то имеет место гетероскедастичность .

Для оценки гетероскедастичности при малом объеме выборки можно использовать метод Гольдфельда—Квандта , суть которого заключается в том, что необходимо:

Расположить значения переменной х в порядке возрастания;

Разделить совокупность упорядоченных наблюдений на две группы;

По каждой группе наблюдений построить уравнения регрессии;

Определить остаточные суммы квадратов для первой и второй групп по формулам: ; , где

n 1 - число наблюдений в первой группе;

n 2 - число наблюдений во второй группе.

Рассчитать критерий или (в числителе должна быть большая сумма квадратов). При выполнении нулевой гипотезы о гомоскедастичности критерий F расч будет удовлетворять F-критерию со степенями свободы γ 1 =n 1 -m, γ 2 =n - n 1 - m) для каждой остаточной суммы квадратов (где mчисло оцениваемых параметров в уравнении регрессии). Чем больше величина F расч превышает табличное значение F- критерия, тем больше нарушена предпосылка о равенстве дисперсий остаточных величин.

Проверку независимости последовательности остатков (отсутствие автокорреляции) осуществляют с помощью d-критерия Дарбина—Уотсона . Он определяется по формуле:

Расчетное значение критерия сравнивается с нижним d 1 и верхним d 2 критическими значениями статистики Дарбина—Уотсона. Возможны следующие случаи:

1) если d < d 1 , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

2) если d 1 < d < d 2 (включая сами эти значения), то считается, что нет достаточных оснований сделать тот или иной вывод. Необходимо использовать дополнительный критерий, например первый коэффициент автокорреляции:

Если расчетное значение коэффициента по модулю меньше табличного значения г 1кр, то гипотеза об отсутствии автокорреляции принимается; в противном случае эта гипотеза отвергается;

3) если d 2 < d < 2, то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию;

4) если d> 2, то это свидетельствует об отрицательной автокорреляции остатков. В этом случае расчетное значение критерия необходимо преобразовать по формуле d′= 4 - dи сравнивать с критическим значением d′, а не d.

Проверку соответствия распределения остаточной последовательности нормальному закону распределенияможно осуществить с помощью R/S - критерия, который определяется по формуле:

где S ε — стандартное отклонение остатков модели (стандартная ошибка). Расчетное значение R/S - критерия сравнивают с табличными значениями (нижней и верхней границами данного отношения), и если значение не попадает в интервал между критическими границами, то с заданным уровнем значимости гипотеза о нормальности распределения отвергается; в противном случае гипотеза принимается

Для оценки качества регрессионных моделей целесообразно также использовать индекс корреляции (коэффициент множественной корреляции).

Формула определения индекса корреляции

где

Общая сумма квадратов отклонений зависимой переменной от ее среднего значения. Определяется по формуле:

Сумма квадратов отклонений, объясненная регрессией. Определяется по формуле:

Остаточная сумма квадратов отклонений. Вычисляется по формуле:

Уравнение можно представить следующим образом:

Индекс корреляции принимает значение от 0 до 1. Чем выше значение индекса, тем ближе расчетные значения результативного признака к фактическим. Индекс корреляции используется при любой форме связи переменных; при парной линейной регрессии он равен парному коэффициенту корреляции.

В качестве меры точности модели применяют точностные характеристики: Для определения меры точности модели рассчитывают:

- максимальная ошибка - соответствует отклонению расчетному отклонению расчетных значений от фактических

- средняя абсолютная ошибка - ошибка показывает, насколько в среднем отклоняются фактические значения от модели

- дисперсия ряда остатков (остаточная дисперсия)

где - среднее значение ряда остатков. Определяется по формуле

- средняя квадратическая ошибка . Представляет собой корень квадратный из дисперсии: , чем меньше значение ошибки, тем точнее модель

- средняя относительная ошибка аппроксимации .

Средняя ошибка аппроксимации не должна превышать 8-10%.

Если модель регрессии признана адекватной, а параметры модели значимы, то переходят к построению прогноза.

Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой величины независимой переменной х прогн.

Данный прогноз называется точечным. Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большой надежностью.

Доверительные интервалы прогноза зависят от стандартной ошибки, удаления х прогн от своего среднего значения , количества наблюдений n и уровня значимости прогноза α. Доверительные интервалы прогноза рассчитывают по формуле: или

где

t табл - определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы γ=n-k-1.

Пример13 .

По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи (таблица 36).

Таблица 36 - Связи расходов населения на продукты питания с уровнем доходов семьи

Расходы на продукты питания, , тыс. руб. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8
Доходы семьи, , тыс. руб. 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

Предположим, что связь между доходами семьи и расходами на продукты питания линейная. Для подтверждения нашего предположения построим поле корреляции (рисунок 8).

По графику видно, что точки выстраиваются в некоторую прямую линию.

Для удобства дальнейших вычислений составим таблицу 37.

Рассчитаем параметры линейного уравнения парной регрессии . Для этого воспользуемся формулами:

Рисунок 8 - Поле корреляции.

Получили уравнение:

Т.е. с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб.

Расчет линейного коэффициента корреляции .

Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Важным и нетривиальным этапом построения регрессионной модели является выбор уравнения регрессии. Этот выбор основывается на теоретических данных об изучаемом явлении и предварительном анализе имеющихся статистических данных.

Уравнение парной линейной регрессии имеет вид:

где - теоретические значения результативного признака, полученные по уравнению регрессии; - коэффициенты (параметры) уравнения регрессии.

Модель регрессии строится на основании статистических данных, причем могут использоваться как индивидуальные значения признака, так и сгруппированные данные. Для выявления связи между признаками по достаточно большому числу наблюдений статистические данные предварительно группируют по обоим признакам и строят корреляционную таблицу. При помощи корреляционной таблицы отображается только парная корреляционная связь, т.е. связь результативного признака с одним фактором. Оценка параметров уравнения регрессии осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и требование минимальности суммы квадратов отклонений эмпирических данных от выровненных значений результативного фактора :

.

Для линейного уравнения регрессии имеем:

Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

где - объем исследуемой совокупности (число единиц наблюдения).

Решение системы нормальных уравнений позволяет найти параметры уравнения регрессии .

Коэффициент парной линейной регрессии является средним значением в точке , поэтому его экономическая интерпретация затруднена. Смысл этого коэффициента можно трактовать как усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Коэффициент показывает, на сколько в среднем изменяется значение результативного признака при изменении факторного признака на единицу.

После получения уравнения регрессии необходимо проверить его адекватность, то есть соответствие фактическим статистическим данным. С этой целью производится проверка значимости коэффициентов регрессии: выясняется, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом случайного стечения обстоятельств.

Для проверки значимости коэффициентов простой линейной регрессии при объеме совокупности меньше 30 единиц используется критерий Стьюдента. Сопоставляя значение параметра с его средней ошибкой, определяют величину критерия:


где - средняя ошибка параметра .

Средняя ошибка параметров и рассчитываются по следующим формулам:

; ,

– объем выборки;

Среднеквадратическое отклонение результативного признака от выровненных значений ;

Среднеквадратическое отклонение факторного признака от общей средней :

или

Тогда расчетные (фактические) значения критерия соответственно равны:

- для параметра ;

- для параметра .

Вычисленные значения критерия сравниваются с критическими значениями , которые определяют по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы , где - объем выборки, -1 ( - число факторных признаков). В социально-экономических исследованиях уровень значимости обычно принимают 0.05 или 0.01. Параметр признается значимым, если (отклоняется гипотеза о том, что параметр лишь в силу случайных обстоятельств оказался равным полученной величине, а в действительности равен нулю).

Адекватность регрессионной модели может быть оценена при помощи -критерия Фишера. Расчетное значение критерия определяется по формуле ,

где - число параметров модели;

Объем выборки.

По таблице определяется критическое значение -критерия Фишера для принятого уровня значимости и числа степеней свободы , . Если , то модель регрессии признается адекватной по этому критерию (отвергается гипотеза о несоответствии заложенных в уравнении и реально существующих связей).

Вторая задача корреляционно-регрессионного анализа – измерение тесноты зависимости результативного и факторного признака.

Для всех видов связи задача измерения тесноты зависимости может быть решена с помощью исчисления теоретического корреляционного отношения:

,

где - дисперсия в ряду выровненных значений результативного признака , обусловленная факторным признаком ;

- дисперсия в ряду фактических значений . Это общая дисперсия, которая слагается из дисперсии, обусловленной фактором (т.е. факторной дисперсии), и дисперсии остатка (отклонение эмпирических значений признака от выровненных теоретических).

На основании правила сложения дисперсий теоретическое корреляционное отношение может быть выражено через остаточную дисперсию :

.

Так как дисперсия отражает вариацию в ряду только за счет вариации фактора , а дисперсия отражает вариацию за счет всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации , показывает, какой удельный вес в общей дисперсии ряда занимает дисперсия, вызываемая вариацией фактора . Квадратный корень из отношения этих дисперсий дает теоретическое корреляционное отношение. При нелинейных связях теоретическое корреляционное отношение называют индексом корреляции и обозначают .

Если , то это означает, что роль других факторов в вариации отсутствует, остаточная дисперсия равна нулю и отношение означает полную зависимость вариации от . Если , то это означает, что вариация никак не влияет на вариацию , и в этом случае . Следовательно, корреляционное отношение принимает значения от 0 до 1. Чем ближе корреляционное отношение к 1, тем теснее связь между признаками.

Кроме того, при линейной форме уравнения связи применяется другой показатель тесноты связи – линейный коэффициент корреляции:

.

Линейный коэффициент корреляции принимает значения от –1 до 1. Отрицательные значения указывают на обратную зависимость, положительные – на прямую. Чем ближе модуль коэффициента корреляции к единице, тем теснее связь между признаками.

Приняты следующие граничные оценки линейного коэффициента корреляции:

Связи нет;

Связь слабая;

Связь посредственная;

Связь сильная;

Связь очень сильная.

Квадрат линейного коэффициента корреляции называют линейным коэффициентом детерминации.

Факт совпадения или несовпадения теоретического корреляционного отношения и линейного коэффициента корреляции используется для оценки формы зависимости. Их значения совпадают только при наличии линейной связи. Несовпадение этих величин свидетельствует о нелинейности связи между признаками. Принято считать, что если , то гипотезу о линейности связи можно считать подтвержденной.

Показатели тесноты связи, особенно исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их надежности (значимости), дающей возможность распространять выводы, полученные по выборочным данным, на генеральную совокупность.

Для этого рассчитывается средняя ошибка коэффициента корреляции:

Где - число степеней свободы при линейной зависимости.

Затем находится отношение коэффициента корреляции к его средней ошибке, то есть , которое сравнивается с табличным значением критерия Стьюдента.

Если фактическое (расчетное) значение больше табличного (критического, порогового), то линейный коэффициент корреляции считается значимым, а связь между и - реальной.

После проверки адекватности построенной модели (уравнения регрессии) ее необходимо проанализировать. Для удобства интерпретации параметра используют коэффициент эластичности. Он показывает средние изменения результативного признака при изменении факторного признака на 1% и вычисляется по формуле:

Точность полученной модели может быть оценена на основании значения средней ошибки аппроксимации:

Кроме того, в некоторых информативными являются данные об остатках, характеризующих отклонение -х наблюдений от расчетных значений . Особый экономический интерес представляют значения, остатки которых имеют наибольшие положительные или отрицательные отклонения от ожидаемого уровня анализируемого показателя.