Тест дарбина-уотсона на наличие автокорреляции остатков. Приложение А

Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения регрессии. Для иллюстрации этого факта весьма нагляден пример, в котором анализируется зависимость реального объема потребления CONS (млрд. $, в ценах 1982 года) от численности населения POP (млн. чел.) в США в 1931-1990 годах. Корреляционное поле статистических данных изображено на рис1.

Рис.1. Корреляционное поле статистических данных

Линейное уравнение регрессии, построенное по МНК по реальным статистическим данным, имеет вид: СONS =-1817,3 + 16,7РОР. Стандартные ошибки коэффициентов S b 0 = 84,7, S b 1 =0,46. Следовательно, их t-статистики t b 0 =-21,4 , t b 1 =36,8. Эти значения существенно превышают 3, что свидетельствует о статистической значимости коэффициентов. Коэффициент детерминации R 2 = 0,96 (т.е. уравнение «объясняет» 96% дисперсии объема потребления). Однако по расположению точек на корреляционном поле видно, что зависимость между POP и CONS не является линейной, а будет скорее экспоненциальной. Для качественного прогноза уровня потребления линейная функция, безусловно, не может быть использована. Таким образом, при весьма хороших значениях t-статистик и F-статистики предложенное уравнение регрессии не может быть признано удовлетворительным (отметим, что R =0,96, скорее всего, в силу того, что и CONS и POP имели временной тренд). Можно ли определить причину этого?

Нетрудно заметить, что в данном случае не выполняются необходимые предпосылки МНК об отклонениях e i точек наблюдений от линии регрессии. Эти отклонения явно не обладают постоянной дисперсией и не являются взаимно независимыми. Нарушение необходимых предпосылок делает неточными полученные оценки коэффициентов регрессии, увеличивая их стандартные ошибки, и обычно свидетельствует о неверной спецификации самого уравнения.

Поэтому следующим этапом проверки качества уравнения регрессии является проверка выполнимости предпосылок МНК.

Оценивая линейное уравнение регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна, а отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности, и анализ их значимости будет неточным.

Причинами, по которым отклонения не обладают перечисленными выше свойствами, могут быть либо нелинейный характер зависимости между рассматриваемыми переменными, либо наличие не учтенного в уравнении существенного фактора. Действительно, при нелинейной зависимости между переменными отклонения от прямой регрессии не случайно распределены вокруг нее, а обладают определенными закономерностями, которые зачастую выражаются в существенном преобладании числа пар соседних отклонений e i-1 и e i с совпадающими знаками над числом пар с противоположными знаками.

При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки, а именно: условия статистической независимости отклонений между собой. Поскольку значения e i теоретического уравнения регрессии Y=β 0 +β 1 x+e остаются неизвестными ввиду неопределенности истинных значений коэффициентов регрессии, то проверяется статистическая независимость их оценок - отклонений e i , i=1,2,...,n. При этом обычно проверяется их некоррелированность, являющаяся необходимым, но недостаточным условием независимости. Причем проверяется некоррелированность не любых, а только соседних величин e i . Соседними обычно считаются соседние во времени (при рассмотрении временных рядов) или по возрастанию объясняющей переменной X (в случае перекрестной выборки) значения е i

На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина- Уотсона DW, рассчитываемую по формуле:

Если e i = е i-1 , то r ei . e-1 =1 и DW = 0. Если е i =-е i-1 ; , то r ei . e-1 =-1 и DW = 4. Во всех других случаях 0 < DW < 4 .

К этому же результату можно подойти с другой стороны. Если каждое следующее отклонение e i приблизительно равно предыдущему, e i -1 , то каждое слагаемое (e 1 -e i -1) в числителе дроби близко к нулю. Тогда, очевидно, числитель дроби будет существенно меньше знаменателя и, следовательно, статистика DW окажется близкой к нулю.

Например, для зависимости CONS и POP (рис. 1) DW = 0,045, что очень близко к нулю и подтверждает наличие положительной автокорреляции остатков первого порядка (линейной зависимости между остатками).

В другом крайнем случае, когда точки наблюдений поочередно отклоняются в разные стороны от линии регрессии, случай отрицательной автокорреляции остатков первого порядка. При случайном поведении отклонений можно предположить, что в одной половине случаев знаки последовательных отклонений совпадают, а в другой - противоположны. Так как абсолютная величина отклонений в среднем предполагается одинаковой, то можно считать, что в половине случаев e i = е i-1 , а в другой е i =-е i-1 . Тогда DW =2

Таким образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики Дарбина-Уотсона. Это означает, что построенная линейная регрессия, вероятно, отражает реальную зависимость.

Возникает вопрос, какие значения DW можно считать статистически близкими к двум?

Для ответа на этот вопрос разработаны специальные таблицы критических точек статистики Дарбина-Уотсона, позволяющие при данном числе наблюдений n, количе­стве объясняющих переменных m и заданном уровне значимости α определять границы приемлемости (критические точки) наблюдаемой статистики DW. Для заданных α,n,m в таблице указываются два числа: d l - нижняя граница и d u - верхняя граница. Для проверки гипотезы об отсутствии автокорреляции остатков используется числовой отрезок, изображенный на рис. 2.

Рис.2. Числовой отрезок.

Выводы осуществляются по следующей схеме.

  1. Если DW
  2. Если DW>4-d l , то это свидетельствует об отрицательной автокорреляции остатков.
  3. При d u
  4. Если d l

Не обращаясь к таблице критических точек Дарбина-Уотсона, можно пользоваться «грубым» правилом и считать, что автокорреляция остатков отсутствует, если 1,5

При наличии автокорреляции остатков полученное уравнение регрессии обычно считается неудовлетворительным.

Пример. Анализируется объем S сбережений домохозяйства за 10 лет. Предполагается, что его размер St в текущем году t зависит от величины y t -\ располагаемого дохода Y в предыдущем году и от величины Zt реальной процентной ставки Z в рассматриваемом году. Статистические данные представлены в таблице:

Необходимо:

а) по МНК оценить коэффициенты линейной регрессии S =β 0 +β 1 Y+β 2 Z;

б) оценить статистическую значимость найденных эмпирических коэффициентов регрессии b 0 , b 1 , b 2 ;

в) построить 95% -е доверительные интервалы для найденных коэффициентов;

г) вычислить коэффициент детерминации R 2 и оценить его статистическую значимость при α = 0,05;

д) определить, какой процент разброса зависимой переменной объясняется данной регрессией (значимость R 2 по Фишеру);

е) вычислить статистику DW Дарбина-У отсона и оценить наличие автокорреляции;

ж) сделать выводы по качеству построенной модели;

з) спрогнозировать средний объем сбережений в 1991 году, если предполагаемый доход составит 270 тыс. у.е., а процентная ставка будет равна 5,5.

Расчет коэффициентов проводится по формулам: b 0 = 5,9619423; b 1 = 0,126189; b 2 = 3,24841/

Проанализируем статистическую значимость коэффициентов регрессии, предварительно рассчитав их стандартные ошибки. Стандартная ошибка регрессии S=1,7407. Следовательно, дисперсии и стандартные ошибки коэффициентов равны:

S b 0 = 1,8929; S b 1 = 0,0212; S b 2 = 1,0146.

Рассчитаем соответствующие t-статистики: t b 0 = 1,565; t b 1 = 5,858; t b 2 = 3,503.

На первый взгляд (используя «грубое» правило), только статистическая значимость свободного члена вызывает сомнения. Два других коэффициента имеют t-статистики, превышающие тройку, что является признаком их высокой статистической значимости. Однако убедимся в таком выводе на основе более детального анализа.

Для использования таблиц критических точек необходимо выбрать требуемый уровень значимости. Обычно это прерогатива исследователя.

Вопросы для повторения

1. Какая существует связь между линейным коэффициентом корреляции и коэффициентом регрессии?

2. Каким образом оценить точность полученной модели регрессии?

3. Какими критериями пользуются при оценке качества построенной регрессионной модели?

4. Как строятся доверительные интервалы для регрессионной модели?

5. Может ли регрессия нелинейная по параметрам быть приведена к линейному виду?

6. Как осуществляется прогноз показателей по регрессионной модели?

Критерий Дарбина - Уотсона

Одним из самых простых, а потому широко применяемых на практике критериев проверки на наличие (отсутствие) автокорреляции является критерий Дарбина - Уотсона

и .

Критерий h Дарбина применяется для выявления автокорреляции остатков в модели с распределёнными лагами:

где n - число наблюдений в модели;

V - стандартная ошибка лаговой результативной переменной.

При увеличении объёма выборки распределение h -статистики стремится к нормальному с нулевым математическим ожиданием и дисперсией, равной 1. Поэтому гипотеза об отсутствии автокорреляции остатков отвергается, если фактическое значение h -статистики оказывается больше, чем критическое значение нормального распределения.

Критерий Дарбина-Уотсона для панельных данных

Для панельных данных используется немного видоизменённый критерий Дарбина-Уотсона:

В отличие от критерия Дарбина-Уотсона для временных рядов в этом случае область неопределенности является очень узкой, в особенности, для панелей с большим количеством индивидуумов.

  1. Методы исключения автокорреляции (отклонений от тренда, последовательных разностей, включения фактора времени).

Сущность всех методов исключения тенденции заключается в том, чтобы устранить воздействие фактора времени на формирование уравнений временного ряда. Основные методы делят на 2 группы:


Основанные на преобразовании уровней ряда в новые переменные, не содержащие тенденции. Полученные переменные используем далее для анализа взаимосвязи изучаемых временных рядов. Эти методы предполагают устранение трендовой компоненты Т из каждого уровня временного ряда. 1.Метод последовательных разностей. 2.Метод отклонения от трендов.

Основанные на изучении взаимосвязей исходных уровней временных рядов при исключении воздействия фактора времени на зависимую и независимые переменные модели: включение в модель регрессии фактора времени.

Истинные значения отклонений Et,t = 1,2, ...,T неизвестны. Поэтому выводы об их независимости осуществляются на основе оценок et,t = 1,2, ...,T, полученных из эмпирического уравнения
регрессии. Рассмотрим возможные методы определения автокорреляции.
Обычно проверяется некоррелированность отклонений et,t = 1, 2, ... , T, являющаяся необходимым, но недостаточным условием независимости. Причем проверяется некоррелированность соседних величин et. Соседними обычно считаются соседние во времени (при рассмотрении временных рядов) или по возрастанию объясняющей переменной X (в случае перекрестной выборки) значения et. Для них несложно рассчитать коэффициент корреляции, называемый в этом случае коэффициентом автокорреляции первого порядка:

При этом учитывается, что математическое ожидание остатков M (et) = 0.
На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно связанную с ним
статистику Ларбина-Уотсона (DW) рассчитываемую по формуле1


Очевидно, что при больших T


Нетрудно заметить, что если et=et-1, то rete- 1=1 и DW=0 (положительная автокорреляция). Если et=-et-1, то re^t 1=-1 и DW=4 (отрицательная автокорреляция). Во всех других случаях 0 lt; DW lt; 4 . При случайном поведении отклонений rete- 1=0 и DW=2. Таким
образом, необходимым условием независимости случайных отклонений является близость к двойке значения статистики Дарбина- Уотсона. Тогда, если DW ~ 2, мы считаем отклонения от регрессии случайными (хотя они в действительности могут и не быть таковыми). Это означает, что построенная линейная регрессия, вероятно, отражает реальную зависимость. Скорее всего, не осталось неучтенных существенных факторов, влияющих на зависимую переменную. Какая-либо другая нелинейная формула не превосходит по статистическим характеристикам предложенную линейную модель. В этом случае, даже когда R2 невелико, вполне вероятно, что необъясненная дисперсия вызвана влиянием на зависимую переменную большого числа различных факторов, индивидуально слабо влияющих на исследуемую переменную, и может быть описана как случайная нормальная ошибка.
Возникает вопрос, какие значения DW можно считать статистически близкими к 2? Для ответа на этот вопрос разработаны специальные таблицы критических точек статистики Дарбина-Уотсона, позволяющие при данном числе наблюдений T (или в прежних обозначениях n), количестве объясняющих переменных m и заданном уровне значимости а определять границы приемлемости (критические точки) наблюдаемой статистики DW. Для заданных а,Т, m в таблице указываются два числа: di - нижняя граница и du - верхняя граница.
Общая схема критерия Дарбина-Уотсона следующая:
  1. По построенному эмпирическому уравнению регрессии

определяются значения отклонений et = У, - У, для каждого наблюдения t, t = 1,..., Т.
  1. По формуле (4.4) рассчитывается статистика DW.
  2. По таблице критических точек Дарбина-Уотсона определяются два числа di и du и осуществляют выводы по правилу:
(0 lt; DW lt; di) - существует положительная автокорреляция,
(dі lt; DW lt; du) - вывод о наличии автокорреляции не определен, (ku lt; DW lt; 4 - du) - автокорреляция отсутствует, (4 - du lt; DW lt; 4 - di) - вывод о наличии автокорреляции не определен,
(4 - di lt; DW lt; 4) - существует отрицательная автокорреляция.
Не обращаясь к таблице критических точек Дарбина-Уотсона, можно пользоваться «грубым» правилом и считать, что автокорреляция остатков отсутствует, если 1,5lt; DW lt; 2,5. Для более надежного вывода целесообразно обращаться к табличным значениям. При наличии автокорреляции остатков полученное уравнение регрессии обычно считается неудовлетворительным.
Отметим, что при использовании критерия Дарбина-Уотсона необходимо учитывать следующие ограничения:
  1. Критерий DW применяется лишь для тех моделей, которые содержат свободный член.
  2. Предполагается, что случайные отклонения Et определяются по итерационной схеме: Et = PEt-1 + vt, называемой авторегрессионной схемой первого порядка HR(1). Здесь vt - случайный член, для которого условия Гаусса-Маркова выполняются.
  3. Статистические данные должны иметь одинаковую периодичность (не должно быть пропусков в наблюдениях).
  4. Критерий Дарбина-Уотсона не применим для регрессионных моделей, содержащих в составе объясняющих переменных зависимую переменную с временным лагом в один период, т. е. для так называемых авторегрессионных моделей вида:

В этом случае имеется систематическая связь между одной из объясняющих переменных и одним из компонентов случайного члена. Не выполняется одна из основных предпосылок МНК - объясняющие переменные не должны быть случайными (не иметь случайной составляющей). Значение любой объясняющей переменной должно быть экзогенным (заданным вне модели), полностью определенным. В противном случае оценки будут смещенными даже при больших объемах выборок.
Для авторегрессионных моделей разработаны специальные тесты обнаружения автокорреляции, в частности h-статистика Дарби- на, которая определяется по формуле:
где р - оценка коэффициента р авторегрессии первого порядка?t = PCt-1 + vt (vt - случайный член), D(g) - выборочная дисперсия коэффициента Y при лаговой переменной yt-1, п - число наблюдений.
При большом объеме выборки h распределяется как ф(0,1), т. е. как нормальная переменная со средним значением 0 и дисперсией, равной 1 по нулевой гипотезе отсутствия автокорреляции. Следовательно, гипотеза отсутствия автокорреляции может быть отклонена при уровне значимости 5%, если абсолютное значение h больше, чем 1,96, и при уровне значимости 1%, если оно больше, чем 2,58, при применении двухстороннего критерия и большой выборке. В противном случае она не отклоняется.
Отметим, что обычно значение р рассчитывается по формуле:
р = 1- 0,5DW, а D(g) равна квадрату стандартной ошибки Sg
оценки g коэффициента Y. Поэтому h легко вычисляется на основе данных оцененной регрессии.
Основная проблема при использовании этого теста заключается в невозможности вычисления h при nD (g) gt; 1.
Пример 4.1. Пусть имеются следующие условные данные (X - объясняющая переменная, Y - зависимая переменная, табл. 4.1).
Таблица 4.1
Исходные данные (условные, ден. ед.)

t

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

X

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Y

3

8

6

12

11

17

15

20

16

24

22

28

26

34

31

Линейное уравнение регрессии имеет вид: Y = 2,09 + 2,014X .
Рассчитаем статистику Дарбина-Уотсона (табл. 4.2):