Матрица парных коэффициентов линейного уравнения множественной регрессии. Множественная регрессия (1) - Лекция


Лекция 3. Множественная регрессия

    Условия применения метода и его ограничения

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии:

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель. Спецификация модели включает два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Требования к факторам:

    Должны быть количественно измеримы. Если необходимо, включить в модель качественный фактор, не имеющий количественного измерения, ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).

    Не должны быть интеркоррелированы и тем более находиться в точной функциональной связи. Включение в модель факторов с высокой интеркорреляцией, когда

для зависимости

может привести к нежелательным последствиям, повлечь неустойчивость и ненадежность оценок коэффициентов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, поэтому параметры уравнения регрессии оказываются неинтерпретированными.

    Мультиколлинеарность

Специфическим для многофакторных систем является условие недопустимости слишком тесной связи между факторными признаками. Это условие часто именуется проблемой коллинеарности факторов. Коллинеарность означает достаточно тесную неслучайную линейную корреляцию одних факторов с другими. Часто рекомендуют исключить фактор, связанный с другим фактором при . Из двух тесно связанных друг с другом факторов рационально исключить фактор, слабее связанный с результативным признаком.

Более сложная методика требуется для нахождения и исключения фактора, не имеющего тесной связи с каким-либо отдельным фактором, но имеющего тесную многофакторную связь с комплексом остальных факторов. Это положение называют мультиколлинеарностью. Для ее измерения следует вычислить последовательно коэффициенты множественной корреляции (или детерминации) каждого фактора (в роли результата) со всеми прочими факторами (в роли объясняющих переменных). Обнаружив мультиколлинеарный фактор либо несколько таковых, следует рассмотреть возможность исключения наиболее зависимого от комплекса остальных фактора, если это не приведет к потере экономического смысла модели.

Коллинеарность и мультиколлинеарность факторов в экономических системах возникают неслучайно. В совокупности однородных предприятий или регионов, как правило, в силу законов экономики возникает параллельная вариация факторных признаков: те предприятия, которые имеют лучшие значения одних факторов, например, лучшие природные условия, одновременно имеют и более высокую фондо- и энерговооруженность, более высокую квалификацию персонала, лучшую технологию и т.п. Отсюда и неизбежная большая или меньшая коллинеарность всех факторов производства либо социально-экономических условий жизни.

Наличие в системе коллинеарности ухудшает математические качества модели, может привести к неустойчивости результативных параметров, резко меняющихся при небольшом изменении значений факторов.

Специфичной проблемой многофакторного анализа является вопрос о возможности замены фактора, по которому отсутствует информация, на другой фактор и последствия такой замены.

Следует по возможности найти другую переменную, значения которой известны и которая находится в достаточно тесной связи с отсутствующим фактором. Например, если нет данных по региону о средней заработной плате, то их можно заменить величиной валового регионального продукта на душу населения, имея в виду, что между этими экономическими признаками должна быть тесная (хотя и неизвестная точно) связь.

Важно учитывать, с какой целью строится модель. Если целью является только прогнозирование результативного признака, то замена фактора другой пременной при ее тесной связи с заменяемым фактором не приведет к существенным ошибкам. Но если целью модели являлось принятие менеджером решений о своей экономической политике, то замена управляемого фактора на тесно с ним связанный, однако неуправляемый заменяющий фактор лишает модель смысла, несмотря на высокую детерминацию.

    Выбор типа многофакторной модели и факторных признаков

Связь результативного признака y с факторами x 1 , x 2 , …, x k выражается уравнением:

(22)

где a – свободный член уравнения;

k – число факторов;

j – номер фактора;

i – номер единицы совокупности;

b j – коэффициент условно-чистой регрессии при факторе x j , измеряющий изменение результата при изменении фактора на его единицу, и при постоянстве прочих факторов, входящих в модель;

ε i – случайная вариация y i , не объясненная моделью.

Модель в форме (22) является аддитивной. Это означает, что в основе модели лежит гипотеза о том, что каждый фактор что-то добавляет или что-то отнимает от значения результативного признака. Такая гипотеза о типе связи причин и следствия вполне отражает ряд экономических систем взаимосвязанных признаков. Например, если y – это урожайность сельскохозяйственной культуры, а x 1 , x 2 , …, x k – агротехнические факторы: дозы разных видов удобрений, число прополок, поливов, доля потерь при уборке, то действительно, каждый из этих факторов либо повышает, либо снижает величину урожайности, причем результат может существовать и без любых из перечисленных факторов.

Однако аддитивная модель пригодна не для любых связей в экономике. Если изучается такая связь как зависимость объема продукции предприятия y от занимаемой площади x 1 , числа работников x 2 , стоимости основных фондов x 3 (или всего капитала), то каждый из факторов является необходимым для существования результата, а не добавлением к нему. В таких ситуациях нужно исходить из гипотезы о мультипликативной форме модели:

(23)

Такая модель по ее первым создателям получила название «модель Кобба-Дугласа».

Возможна и смешанная форма модели, в которой одни факторы будут входить аддитивно, а другие мультипликативно.

При выборе факторных признаков следует исходить из следующих положений.

    Факторы должны являться причинами, а результативный признак – их следствием. Недопустимо в число факторов включать признак, занимающий в реальной экономике место на «выходе» системы, т.е. зависимый от моделируемого. Например, строится модель себестоимости центнера зерна. Факторами взяты урожайность зерновых культур и трудоемкость центнера, но коэффициент детерминации невелик, модель плохая. Для ее «улучшения» в число факторов добавили рентабельность производства зерна. Коэффициент детерминации сразу подскочил до 0,88. Но модель не стала лучше, она стала бессмысленной, так как рентабельность зависит от себестоимости, а не наоборот.

    Факторный признаки не должны быть составными частями результативного признака. В ту же модель себестоимости нельзя вводить факторами зарплату в расчете на центнер зерна, затраты на перевозку центнера зерна и т.п. связь целого с ее структурными частями следует анализировать не с помощью корреляционного анализа, а с помощью систем индексов.

    Следует избегать дублирования факторов. Каждый реальный фактор должен быть представлен одним показателем. Например, трудовой фактор в модели объема продукции может быть представлен либо среднесписочным числом работников, либо затратами человеко-дней (человеко-часов) на производство продукции, но не обоими показателями. Дублирование факторов ведет к раздроблению влияния фактора, и он может оказаться ненадежным из-за такого раздробления.

    Следует по возможности избегать факторов, тесно связанных с другими.

    Следует включать факторы одного уровня иерархии, не следует включать и факторы вышележащего уровня и их субфакторы. Например, в модель себестоимости зерна включаем урожайность, трудоемкость, но не добавляем еще балл плодородия, дозу удобрений, энерговооруженность работников, т.е. субфакторы – причины, влияющие на урожайность и трудоемкость. Включение субфакторов тоже дублирование фактора.

    Есть логика в таком построении модели, при котором все признаки отнесены на одну и ту же единицу совокупности, как результативный признак, так и факторы. Например, если моделируется объем продукции предприятия, то и факторы должны относиться к предприятию: число работников, площадь угодий, основные фонды и т.д. Если строится модель заработной платы работника, то и факторы должны относиться к работнику: его стаж, возраст, образование, разряд тарифной сетки (шкалы), энерговооруженность и т.д.

    Действует принцип простоты модели. Если возможно построить хорошую модель с пятью факторами, то не следует гнаться за идеальной моделью с десятью факторами, обычно лишние факторы ухудшают модель.

    Системы показателей многофакторной корреляции и регрессии

Рассмотрим данную систему показателей на примере связи урожайности зерновых культур в 51 агрофирме Орловской области. Первоначально были отобраны 8 факторных признаков, которые могут влиять на вариацию урожайности:

x 1 – размер посевной площади зерновых, га;

x 2 удельный вес зерновых в общей площади, %;

x 3 – затраты на 1 га посева зерновых, тыс. руб./га;

x 4 – затраты труда на 1 га, чел.-ч;.

x 5 – уровень оплаты труда, руб./чел.-ч.;

x 6 – энергообеспеченность, л.с./100 га пашни;

x 7 – число комбайнов на 1000 га зерновых, шт.;

x 8 – число трактористов-машинистов на 100 га пашни, чел.

Первоначальное уравнение регрессии имеет вид:

Однако надежно отличными от нуля оказались только коэффициенты при x 3 (t -критерий равен 10,5) и при x 8 (t -критерий равен 2,72). Большую надежность, чем другие факторы имеет и x 5 .

После отсева ненадежных факторов, т.е. исключения их из уравнения, окончательное уравнение регрессии таково:

Таким образом, на различие урожайности в данных 51 агрофирмы сильнее всего и надежно повлияли различия между предприятиями в затратах на 1 га, в уровне оплаты труда и в обеспеченности квалифицированными работниками.

Каждый из коэффициентов, называемых коэффициентами чистой регрессии, интерпретируются как величина изменения урожайности при условии, что данный фактор изменяется на принятую единицу измерения, а два других фактора остаются постоянными на средних уровнях. Например, b 3 означает, что при увеличении затрат на 1 га зерновых и при неизменности оплаты труда и обеспеченности трактористами-машинистами урожайность в среднем увеличивалась в среднем на 4, 6 ц/га. Термин «условно чистая регрессия» означает, что влияние отдельного фактора очищено от сопутствующей вариации только тех факторов, которые входят в уравнение, но не очищено от возможной сопутствующей вариации других факторов.

Величина коэффициентов условно чистой регрессии зависит от принятых единиц измерения. Если бы фактор x 3 измерялся не в тысячах рублей на гектар, а в рублях на гектар, то коэффициент b 3 был бы равен 0,00461 руб./га. Следовательно, сравнивать между собой коэффициенты условно чистой регрессии нельзя. Чтобы получить сравнимые коэффициенты влияния вариации факторов на вариацию результата, следует избавиться от единиц измерения, привести к одной условной единице. Для этого можно применить два способа.

Первый способ называется стандартизацией. Этот термин возник из английского названия среднего квадратического отклонения (Standard deviation). Стандартизированные коэффициенты регрессии выражаются в долях или величинах, если они превышают единицу – в величинах σ y . Стандартизированные коэффициенты обозначают греческой буквой β и называют бета-коэффициентами. Их формула такая:

В нашем примере получаем:

β 3 = 0,772;

β 5 = 0,147;

β 8 = 0,223.

Интерпретация бета-коэффициентов такова: при изменении фактора x 3 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак (урожайность) отклонится от своего среднего уровня на 0,772 его среднего квадратического отклонения. Так как все стандартизированные коэффициенты выражены в одинаковых единицах измерения, в σ y , они сравнимы между собой, и можно сделать вывод, что на вариацию урожайности сильнее всего повлияла в изучаемой совокупности предприятий вариация затрат на гектар посева.

Другой способ приведения коэффициентов регрессии к сравнимому виду – их преобразование в коэффициенты эластичности. Формула коэффициента эластичности ℓ j :

(25)

Интерпретируется коэффициент эластичности следующим образом: при изменении фактора x j на его среднюю величину и при постоянстве других входящих в уравнение факторов результативный признак в среднем изменится на ℓ j части его средней величины (или на ℓ j средних, если ℓ j >1, что бывает реже). Часто говорят, «изменится на ℓ j процентов на 1% изменения фактора».

В нашем примере имеем:

Коэффициенты эластичности так же выражены, как и β j , в одинаковых единицах и сравнимы между собой. Ими удобнее, чем β-коэффициентами, пользоваться в планировании и прогнозировании. Вряд ли менеджер станет планировать увеличение фактора, скажем, инвестиций на 0,6 сигмы. Обычно планируют изменение факторов, если они управляемы, на столько-то процентов от достигнутого уровня. Например, если планируем увеличить затраты на гектар зерновых на 10%, оплату труда на 30%, а обеспеченность квалифицированными трактористами-машинистами на 20%, то можно ожидать изменения урожайности на
, где k j – планируемые темпы прироста факторов.

Теперь рассмотрим систему показателей тесноты многофакторных связей. Прежде всего строится матрица парных коэффициентов корреляции (табл. 1).

Таблица 1. Матрица парных коэффициентов корреляции

Признаки

x 3

x 5

x 8

x 3

x 5

x 8

Матрица парных коэффициентов корреляции дает исходные данные для других показателей тесноты связи и для первичной проверки на коллинеарность. В данном случае все связи между факторами слабые, коллинеарность не испортит модель.

Важнейшим показателем тесноты связи в многофакторной системе является коэффициент множественной детерминации R 2 . Он измеряет общую тесноту связи вариации результативного признака y с вариацией всей системы входящих в модель факторов. Величина коэффициента множественной детерминации может быть вычислена несколькими способами.

1.Вычисление на основе матрицы парных коэффициентов корреляции

,

где Δ * - определитель матрицы;

, (26)

а Δ – определитель матрицы, не включающей первой строки Δ * и ее последнего столбца, т.е.:

При двух факторах получается упрощенная формула расчета:

(27)

Из (27) следует, что при независимости факторов друг от друга, т.е. , коэффициент множественной детерминации есть сумма парных коэффициентов детерминации.

Пользуясь формулой (27), можно вычислить три возможных двухфакторных коэффициента детерминации:

2.Вычисление на основе парных коэффициентов корреляции и β-коэффициентов:

В примере: R 2 =0,86·0,772+0,35·0,147+0,433·0,223=0,8119.

3.Вычисление как корреляционное отношение, т.е. отношение вариации результативного признака y , связанной с вариацией системы факторов, входящих в модель (в уравнение регрессии), ко всей, общей, вариации результативного признака:

. (30)

Числитель формулы (30) – это сумма квадратов отклонений индивидуальных расчетных значений результативного признака от его средней, а знаменатель – сумма квадратов фактических значений результативного признака от средней, для всех единиц совокупности.

Частными коэффициентами детерминации называются показатели, измеряющие, на какую долю уменьшается необъясненная вариация уже имеющимися в модели факторами при включении в модель данного фактора x m . Формула частного коэффициента детерминации такова:

В нашем примере:

Интерпретация такова: включение в модель фактора x 3 после x 5 и x 8 y на 74%; включение фактора x 5 после x 3 и x 8 уменьшает необъясненную вариацию y на 10%; включение фактора x 8 после x 3 и x 5 уменьшает необъясненную вариацию y на 20%.

Коэффициенты частной детерминации несравнимы между собой, так как это доли разных величин-знаменателей.

Извлекая корень квадратный из любого коэффициента детерминации, получают коэффициент соответствующей корреляции: множественной, парной или частной.

5. Включение в многофакторную модель неколичественных факторов

Неколичественными являются такие факторы аграрного производства, как природная зона, форма собственности предприятий, преобладающее производственное направление (отрасль) и другие. Предпочтительно не смешивать в исходной совокупности предприятия или регионы, различающиеся по этим качественным признакам. Но может возникнуть и необходимость построения модели с неоднородными единицами совокупности, например, если число единиц, однородных по качественному признаку, слишком мало для надежной связи. Иногда может быть поставлена цель измерения чистого влияния неколичественного фактора, например, формы собственности на результаты производства, а это требует включения качественного фактора в многофакторную модель.

В таких случаях качественные градации признака можно закодировать специальными переменными, часто называемыми «фиктивными» или «структурными» переменными. Они отражают неоднородность качественной структуры совокупности. Предположим, необходимо построить регрессионную модель рентабельности продукции предприятий, причем в регионе имеется 16 государственных предприятий, 28 частных, 13 кооперативной формы собственности.

Если игнорировать различия, связанные с формой собственности, то они или уйдут в остаточную вариацию, ухудшив модель рентабельности, либо в неизвестной пропорции станут смешиваться с влиянием тех или иных качественных факторов, искажая меру их влияния.

Необходимо для m неколичественных факторов или градаций такового фактора ввести m -1 структурную переменную, обозначим которую U j . Данные для расчета будут иметь следующий вид при m =3 (табл. 2).

Таблица 2. Исходные данные со структурными переменными

Форма собственности

Единица совокупности

Количественные признаки

Структурные переменные

X 1

X 2

X k

U 1

U 2

Государственная

Значения этих признаков

Значения этих признаков

Кооперативная

Значения этих признаков

В результате решения будет получена модель вида:

где x k +1 соответствуют переменной U 1 , а x k +2 – переменной U 2 .

Перепишем модель в специальных обозначениях:

Значение коэффициентов при структурных переменных таково: коэффициент c 1 означает, что предприятия частной формы собственности при тех же значениях количественных факторов x 1 x k имеют рентабельность на c 1 больше, чем государственные предприятия, которые приняты за базу сравнения (не имеют структурных переменных U 1 и U 2 ). Предприятия кооперативной формы собственности имеют рентабельность на c 2 большую, чем государственные. Величины c 1 и c 2 могут быть как положительными, так и отрицательными.

Вместо общей модели можно записать три частные модели для предприятий отдельных групп по формам собственности, присоединяя коэффициент при структурной переменной к свободному члену уравнения:

а) для предприятий государственного сектора

б) для предприятий частного сектора

в) для предприятий кооперативного сектора

6.Применение многофакторных регрессионных моделей для анализа деятельности предприятий и прогнозирования

Оценка деятельности на основе регрессионной модели в сравнении с простейшим приемом такой оценки – сравнением результата, достигнутого данным предприятием, со средним результатом по однородной совокупности – дает дополнительные преимущества.

Согласно нашему примеру, средняя урожайность по 51 агрофирме составила 22,9 ц/га зерна.

Агрофирма 1 получила 17,6 ц/га. Следовательно, эта фирма отстающая. Однако возникает вопрос: может быть и условия производства у этой фирме были хуже средних? Сравнение со средней по совокупности полностью игнорирует различие в «факторообеспеченности» предприятий, а на самом деле предприятия всегда находятся не в одинаковых условиях.

Оценка деятельности на основе регрессионной модели предполагает учет неравенства условий производства, например, плодородия почв, финансового положения, наличия квалифицированных кадров и другие. Полностью учесть различие в условиях производства между предприятиями невозможно, так как любая модель учитывает не все факторы вариации урожайности. Оценка на основе модели производится сравнением фактического результата (урожайности) с тем результатом, который был бы достигнут предприятием при фактически имеющихся факторах и средней по совокупности их эффективности, выраженной коэффициентами условно чистой регрессии. Рассмотрим результаты расчета урожайности двух фирм (табл. 3).

Таблица 3. Фактический и расчетный результат производства

Агрофирма

Факторные признаки

Урожайность, ц/га

x 3

x 5

x 8

фактическая

расчетная

Средняя по выборке

Обе фирмы имеют худшие, чем в среднем в выборке, значения основных факторов x 3 и x 8 , а соответственно и значения расчетной урожайности ниже, чем средняя. Но при этом фирма 1 практически имеет ту же расчетную урожайность, что и фактически полученную. Нет основания считать эту фирму отстающей. Фирма 2 имеет фактическую урожайность ниже, чем расчетная по имеющимся факторам. Это означает, что либо у этой фирмы оказались хуже среднего неизвестные, не входящие в модель факторы, либо степень использования основных факторов – затрат на гектар и обеспеченность квалифицированными работниками ниже, чем в среднем.

Прогнозирование на основе регрессионной модели исходит из предположения, что факторы управляемы и могут принять то или иное плановое, ожидаемое значение, а прочие неизвестные условия сохранятся на среднем по совокупности уровне. Управляемость факторов не означает, что при прогнозе в модель можно подставлять любые их значения. Уравнение регрессии отражает те условия, которые существовали в совокупности, по данным которой уравнение получено. Если бы значения факторных признаков были в 2-3 раза более высокими, то нельзя утверждать, что коэффициенты условно чистой регрессии остались бы теми же.

Поэтому рекомендуется при прогнозировании по уравнению регрессии не выходить за пределы реально наблюдаемых значений факторов в совокупности или выходить за эти границы не более чем на 10-15% средних величин. Не менее важным требованием при прогнозировании является требование о соблюдении системности прогнозируемых значений факторов. Необходимо учитывать знак и тесноту связи между факторами. Например, если прогнозируется повысить степень обеспеченности квалифицированными работниками, то нельзя оставить без изменения, тем более снижать, прогнозируемую величину уровня оплаты труда. Планируя рост энерговооруженности, необходимо примерно в той же пропорции увеличить и фондовооруженность.

Ориентируясь на указанные в таблице 3 значения факторов, предположим, что прогнозируя урожайность, планируем затраты на гектар (x 3 ) на уровне 3 тыс. руб., наличие трактористов-машинистов на 100 га пашни 0,8; оплату часа труда в размере 20 руб. в час. Подставляя эти значения в регрессионную модель получим точечный прогноз урожайности зерновых культур:

Точечный прогноз представляет собой математическое ожидание (среднюю) возможных с разной вероятностью значений прогнозируемого признака. Необходимо дополнить точечный прогноз расчетом доверительных границ с достаточно большой вероятностью. Для этого следует использовать величину средней квадратической ошибки аппроксимации, которая вычисляется по формуле:

(33)

Числитель подкоренного выражения – это остаточная, не объясненная моделью сумма квадратов отклонений результативного признака, а знаменатель – число степеней свободы остаточной вариации. В нашем примере остаточная сумма квадратов отклонений равна 814,3. Имеем:

Следовательно, с надежностью 0,95 прогнозируемая урожайность составит 25,4±4,16·2, или от 17,8 до 33,72 ц/га. Все эти расчеты относятся к прогнозам урожайности для отдельных агрофирм. Если речь идет о средней урожайности по совокупности 51 агрофирмы, то средняя ошибка средней арифметической величины равна среднему квадратическому отклонению, деленному на корень квадратный из объема выборки n , т.е. составит:

Интерпретация этого значения ошибки прогноза средней величины такова: если обеспечить 51 агрофирму факторами x 3 , x 5 , x 8 на уровнях соответственно 3, 20, 0,8, то будет получена средняя по совокупности урожайность 25,4±0,583 ц/га. С вероятностью 0,95 средняя по совокупности ожидаемая урожайность составит 25,4±0,583·2, или от 23,7 до 27,1 ц/га.

Эконометрической корреляционно-регрессионной моделью системы взаимосвязанных признаков изучаемой совокупности является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака в совокупности, обладает высоким значением коэффициента детерминации (не ниже 0,5), надежными и правильно интерпретируемыми в соответствии (по знаку и по порядку величины) с теорией изучаемой системы коэффициентами регрессии, и в силу данных свойств пригодное для оценки деятельности единиц совокупности и для прогнозирования.

Множественной регрессии (2)Реферат >> Маркетинг

Вводя их в модель, т.е, построить уравнение множественной регрессии . Множественная регрессия широко используется в решении проблем спроса...

Задачей множественной линейной регрессии является построение линейной модели связи между набором непрерывных предикторов и непрерывной зависимой переменной. Часто используется следующее регрессионное уравнение:

Здесь а i - регрессионные коэффициенты, b 0 - свободный член(если он используется), е - член, содержащий ошибку - по поводу него делаются различные предположения, которые, однако, чаще сводятся к нормальности распределения с нулевым вектором мат. ожидания и корреляционной матрицей .

Такой линейной моделью хорошо описываются многие задачи в различных предметных областях, например, экономике, промышленности, медицине. Это происходит потому, что некоторые задачи линейны по своей природе.

Приведем простой пример. Пусть требуется предсказать стоимость прокладки дороги по известным ее параметрам. При этом у нас есть данные о уже проложенных дорогах с указанием протяженности, глубины обсыпки, количества рабочего материала, числе рабочих и так далее.

Ясно, что стоимость дороги в итоге станет равной сумме стоимостей всех этих факторов в отдельности. Потребуется некоторое количество, например, щебня, с известной стоимостью за тонну, некоторое количество асфальта также с известной стоимостью.

Возможно, для прокладки придется вырубать лес, что также приведет к дополнительным затратам. Все это вместе даст стоимость создания дороги.

При этом в модель войдет свободный член, который, например, будет отвечать за организационные расходы (которые примерно одинаковы для всех строительно-монтажных работ данного уровня) или налоговые отчисления.

Ошибка будет включать в себя факторы, которые мы не учли при построении модели (например, погоду при строительстве - ее вообще учесть невозможно).

Пример: множественный регрессионный анализ

Для этого примера будут анализироваться несколько возможных корреляций уровня бедности и степень, которая предсказывает процент семей, находящихся за чертой бедности. Следовательно мы будем считать переменную характерезующую процент семей, находящихся за чертой бедности, - зависимой переменной, а остальные переменные непрерывными предикторами.

Коэффициенты регрессии

Чтобы узнать, какая из независимых переменных делает больший вклад в предсказание уровня бедности, изучим стандартизованные коэффициенты (или Бета) регрессии.

Рис. 1. Оценки параметров коэффициентов регрессии.

Коэффициенты Бета это коэффициенты, которые вы бы получили, если бы привели все переменные к среднему 0 и стандартному отклонению 1. Следовательно величина этих Бета коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в зависимую переменную. Как видно из Таблицы, показанной выше, переменные изменения населения с 1960 года (POP_ CHING), процент населения, проживающего в деревне (PT_RURAL) и число людей, занятых в сельском хозяйстве (N_Empld) являются самыми главными предикторами уровня бедности, т.к. только они статистически значимы (их 95% доверительный интервал не включает в себя 0). Коэффициент регрессии изменения населения с 1960 года (Pop_Chng) отрицательный, следовательно, чем меньше возрастает численность населения, тем больше семей, которые живут за чертой бедности в соответствующем округе. Коэффициент регрессии для населения (%), проживающего в деревне (Pt_Rural) положительный, т.е., чем больше процент сельских жителей, тем больше уровень бедности.

Значимость эффектов предиктора

Просмотрим Таблицу с критериями значимости.

Рис. 2. Одновременные результаты для каждой заданной переменной.

Как показывает эта Таблица, статистически значимы только эффекты 2 переменных: изменение населения с 1960 года (Pop_Chng) и процент населения, проживающего в деревне (Pt_Rural), p < .05.

Анализ остатков. После подгонки уравнения регрессии, почти всегда нужно проверять предсказанные значения и остатки. Например, большие выбросы могут сильно исказить результаты и привести к ошибочным выводам.

Построчный график выбросов

Обычно необходимо проверять исходные или стандартизованные остатки на большие выбросы.

Рис. 3. Номера наблюдений и остатки.

Шкала вертикальной оси этого графика отложена по величине сигма, т.е., стандартного отклонения остатков. Если одно или несколько наблюдений не попадают в интервал ± 3 умноженное на сигма, то, возможно, стоит исключить эти наблюдения (это можно легко сделать через условия выбора наблюдений) и еще раз запустить анализ, чтобы убедится, что результаты не изменяются этими выбросами.

Расстояния Махаланобиса

Большинство статистических учебников уделяют много времени выбросам и остаткам относительно зависимой переменной. Тем не менее роль выбросов в предикторах часто остается не выявленной. На стороне переменной предиктора имеется список переменных, которые участвуют с различными весами (коэффициенты регрессии) в предсказании зависимой переменной. Можно считать независимые переменные многомерным пространством, в котором можно отложить любое наблюдение. Например, если у вас есть две независимых переменных с равными коэффициентами регрессии, то можно было бы построить диаграмму рассеяния этих двух переменных и поместить каждое наблюдение на этот график. Потом можно было отметить на этом графике среднее значение и вычислить расстояния от каждого наблюдения до этого среднего (так называемый центр тяжести) в двумерном пространстве. В этом и заключается основная идея вычисления расстояния Махаланобиса . Теперь посмотрим на гистограмму переменной изменения населения с 1960 года.

Рис. 4. Гистограмма распределения расстояний Махаланобиса.

Из графика следует, что есть один выброс на расстояниях Махаланобиса.

Рис. 5. Наблюдаемые, предсказанные и значения остатков.

Обратите внимание на то, что округ Shelby (в первой строке) выделяется на фоне остальных округов. Если посмотреть на исходные данные, то вы обнаружите, что в действительности округ Shelby имеет самое большое число людей, занятых в сельском хозяйстве (переменная N_Empld). Возможно, было бы разумным выразить в процентах, а не в абсолютных числах, и в этом случае расстояние Махаланобиса округа Shelby, вероятно, не будет таким большим на фоне других округов. Очевидно, что округ Shelby является выбросом .

Удаленные остатки

Другой очень важной статистикой, которая позволяет оценить серьезность проблемы выбросов, являются удаленные остатки . Это стандартизованные остатки для соответствующих наблюдений, которые получаются при удалении этого наблюдения из анализа. Помните, что процедура множественной регрессии подгоняет поверхность регрессии таким образом, чтобы показать взаимосвязь между зависимой и переменной и предиктором. Если одно наблюдение является выбросом (как округ Shelby), то существует тенденция к "оттягиванию" поверхности регрессии к этому выбросу. В результате, если соответствующее наблюдение удалить, будет получена другая поверхность (и Бета коэффициенты). Следовательно, если удаленные остатки очень сильно отличаются от стандартизованных остатков, то у вас будет повод считать, что регрессионный анализа серьезно искажен соответствующим наблюдением. В этом примере удаленные остатки для округа Shelby показывают, что это выброс, который серьезно искажает анализ. На диаграмме рассеяния явно виден выброс.

Рис. 6. Исходные остатки и Удаленные остатки переменной, означающей процент семей, проживающих ниже прожиточного минимума.

Большинство из них имеет более или менее ясные интерпретации, тем не менее обратимся к нормальным вероятностным графикам.

Как уже было упомянуто, множественная регрессия предполагает, что существует линейная взаимосвязь между переменными в уравнении и нормальное распределение остатков. Если эти предположения нарушены, то вывод может оказаться неточным. Нормальный вероятностный график остатков укажет вам, имеются ли серьезные нарушения этих предположений или нет.

Рис. 7. Нормальный вероятностный график; Исходные остатки.

Этот график был построен следующим образом. Вначале стандартизованные остатки ранжируюся по порядку. По этим рангам можно вычислить z значения (т.е. стандартные значения нормального распределения) на основе предположения, что данные подчиняются нормальному распределению. Эти z значения откладываются по оси y на графике.

Если наблюдаемые остатки (откладываемые по оси x) нормально распределены, то все значения легли бы на прямую линию на графике. На нашем графике все точки лежат очень близко относительно кривой. Если остатки не являются нормально распределенными, то они отклоняются от этой линии. Выбросы также становятся заметными на этом графике.

Если имеется потеря согласия и кажется, что данные образуют явную кривую (например, в форме буквы S) относительно линии, то зависимую переменную можно преобразовать некоторым способом (например, логарифмическое преобразование для "уменьшения" хвоста распределения и т.д.). Обсуждение этого метода находится за пределами этого примера (Neter, Wasserman, и Kutner, 1985, pp. 134-141, представлено обсуждение преобразований, убирающих ненормальность и нелинейность данных). Однако исследователи очень часто просто проводят анализ напрямую без проверки соответствующих предположений, что ведет к ошибочным выводам.

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

x 1

x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).

В действительности каждое явление определяется действием не одной причины, а нескольких, даже комплексом причин. Их совместное действие может по-разному сказываться на следствии. «Следствие порождается совокупным действием множества причин. Сложное сочетание причин приводит к различным результатам. Действуя на следствие в одном и том же направлении, они усиливают влияние друг друга. Если часть причин имеет обратное направление в отношении объекта действия, то их совместное действие на следствие ослабляется или даже сводится на нет. Может возникнуть даже такая ситуация, когда вполне определенная, реально действующая причина не имеет явного следствия. Это означает, что наряду с этой причиной действует другая, поглощающая действие первой» . Итак, необходимо исследовать воздействие различных причин, т. е. исследовать зависимость одного явления от ряда других явлений, вызывающих первое.

Совершенно очевидно, что не все причины и факторы, в какой-то степени оказывающие влияние на изучаемое явление, могут быть исследованы. Мы вынуждены ограничиться только существенными причинами.

Экономическое явление детерминируется множеством одновременно и совокупно действующих причин. Поэтому перед нами стоит задача исследования зависимости одной зависимой переменной от нескольких объясняющих переменных в условиях конкретного места и конкретного времени. Эту задачу можно решить с помощью множественного, или многофакторного, регрессионного анализа. При этом снова ограничимся рассмотрением линейного соотношения между зависимой переменной у и объясняющими переменными хт. Мы обсудим также применение регрессионного анализа при нелинейном соотношении между переменными, но только для случая, когда возможна линейная аппроксимация.

Итак, при существовании линейного соотношения между переменными общее выражение уравнения множественной регрессии (2.1) записывается в виде

Объясняющие переменные оказывают совместное одновременное влияние на зависимую переменную у.

Как было сказано, мы не можем охватить весь комплекс причин и учесть случайность, присущую в той или иной степени причинному действию и определяемому им следствию. Поэтому, ограничиваясь наиболее важными объясняющими переменными, в выражение функции регрессии вводим аддитивную составляющую возмущающую переменную и, дающую суммарный эффект от воздействия всех неучтенных факторов и случайностей. Эмпирические значения у можно вследствие этого представить таким образом:

Итак, возмущающая переменная и интерпретируется так же, как и при простой линейной регрессии.

В выражении функции - расчетные значения регрессии. Они указывают средние значения переменной у в точке при фиксированных значениях объясняющих переменных в предположении, что только эти переменных являются причиной изменения переменной у. Значения у представляют собой оценки средних значений у для фиксированных значений переменных в точке

Коэффициенты - параметры регрессии (2.42). Постоянная регрессия снова выполняет в уравнении регрессии функцию выравнивания. Она определяет точку пересечения гиперповерхности регрессии с осью ординат.

Значения представляют собой оценки коэффициентов регрессии. Индекс при коэффициенте соответствует индексу объясняющей переменной. Так, указывает среднюю величину изменения у при изменении на одну единицу при условии, что другие переменные остаются без изменения; показывает, на сколько единиц в среднем изменится у, если бы переменная изменилась на единицу при условии, что переменные остались бы без изменения, и т. д. В то время как регрессия (2.42) охватывает совокупное одновременное влияние объясняющих переменных, коэффициенты регрессии указывают соответствующие усредненные частные влияния переменных в предположении, что остальные объясняющие переменные сохраняются на постоянном уровне. С точки зрения статистической методологии, таким образом, нет различия между множественной и частной регрессией. (На этом мы еще остановимся подробнее в следующем разделе.) По этой причине в литературе параметры называются как коэффициентами множественной, так и частной регрессии.

Такая содержательная интерпретация коэффициентов регрессии могла бы привести к ошибочному заключению, что достаточно определить несколько простых линейных регрессий переменной у по отдельным переменным Но, как мы уже упоминали ранее и в чем мы еще убедимся на примере, множественная регрессия хотя и охватывает одновременное действие объясняющих переменных, коэффициент регрессии исключает влияние остальных объясняющих переменных,

В случае простой линейной регрессии дело обстоит иначе. При простой линейной регрессии влияние прочих объясняющих переменных частично отражается в коэффициенте регрессии, что можно объяснить часто существующей двусторонней зависимостью объясняющих переменных. Итак, если располагают достаточной информацией и эмпирическим числовым материалом по нескольким причинам-факторам для переменной у, то целесообразнее и теоретически обоснованнее строить множественную регрессию. В разделе 2.5 мы уже указывали, что из-за рассеяния значений отдельных переменных функция регрессии необратима даже тогда, когда это оправдано логически и обосновано профессиональными соображениями. Необратимость характерна также для множественной регрессии. Если интересуются не только зависимостью переменной у от но также зависимостью переменной от у и то следует определить другую функцию (регрессию х на у и Теоретически существует сопряженных, или альтернативных, регрессий. Уже здесь мы обращаем внимание на то, что многосторонняя зависимость между переменными у и нарушает существенные предпосылки применения метода наименьших квадратов. Подробно речь об этом пойдем в главе 12.

Процедуру построения множественной регрессии рассмотрим на примере регрессии с двумя объясняющими переменными. Функция линейной множественной регрессии в этом случае записывается в виде

Задача состоит в оценке параметров регрессии по результатам выборочных наблюдений над переменными, включенными в анализ. Для этой цели снова применяем метод наименьших квадратов. Поставим условие, согласно которому регрессия должна по возможности хорошо согласовываться с Эмпирическими данными. Поэтому по тем же соображениям, что и в разделе 2.4, выдвинем требование, по которому сумма квадратов отклонений всех наблюдаемых значений зависимой переменной от значений, вычисленных по уравнению регрессии (т. е. сумма квадратов остатков), должна быть минимальна. Итак, должно выполняться требование

Подставляя вместо выражение (2.43), получим

Так же, как в разделе 2.4, 5 является функцией от неизвестных параметров регрессии. Необходимым условием выполнения (2.45) служит обращение в нульгчастных производных функции по каждому из параметров После соответствующих алгебраических

выкладок получаем следующую систему нормальных уравнений:

Если мы сравним эти уравнения с нормальными уравнениями простой линейной регрессии, то увидим большое сходство. Они отличаются лишь слагаемым, учитывающим новую переменную Следовательно, включение в анализ новых переменных не представляет больших трудностей.

Разделив обе части уравнения (2.46) на получим следующее выражение для постоянной регрессии

Подставляя (2.49) в (2.43), после некоторых простых преобразований получим выражение, аналогичное (2.25):

Решая систему нормальных уравнений относительно неизвестных параметров, получим

По аналогии с формулой (2.27) для простой регрессии можно коэффициенты множественной или частной регрессии представить через дисперсии и ковариации.

Разделив вначале обе части нормального уравнения (2.46) на и умножив их на вычтем их соответственно из левой и правой частей уравнения (2.47). В результате получим

Затем умножим обе части нормального уравнения (2.46) на предварительно поделенные на и вычтем их соответственно из левой и правой частей уравнения (2.48). В результате получим

Оба равенства мы можем представить следующим образом:

Разделив обе части равенств (2.53) и (2.54) на найдем, с учетом определений дисперсии и ковариации, выражения коэффициентов регрессии:

Используя данные примера из раздела 2.4, дополним их результатами наблюдений над второй объясняющей переменной - средним возрастом работников. Переменную х, использованную в примере раздела 2.4, обозначим теперь . В табл. 7 приведены значения, которые принимает переменная а также промежуточные результаты вычислений, необходимые для нахождения оценок коэффициентов регрессии.

Таблица 7. Средний возраст работников, средний процент выполнения нормы на 14 предприятиях и промежуточные результаты, необходимые для нахождения оценок параметров регрессии (см. скан)

Среднее значение переменной

Используя промежуточные результаты из табл. 3 и 7, по формулам (2.51) и (2.52) вычисляем коэффициенты регрессии:

Постоянную регрессии получаем по формуле (2.49):

Итак, в соответствии с формулой функции регрессии (2.43) уравнение регрессии можно записать в виде

Если рассматривать зависимость производительности одновременно от уровня механизации работ и от среднего возраста работников, то производительность труда в среднем изменится на при условии, что уровень механизации работ изменится на один процент при исключении влияния среднего возраста работников. Если исключить влияние уровня механизации работ, то производительность труда в среднем изменится на при изменении среднего возраста работников на один год.

По сравнению с коэффициентом регрессии в уравнении с одной объясняющей переменной частный коэффициент регрессии несколько уменьшился. Это объясняется тем, что переменная коррелирует с в чем мы еще убедимся с помощью количественного показателя. По этой причине переменная влияет на переменную у через вследствие чего ослабевает сила зависимости у от Наличие зависимости среди объясняющих переменных нарушает одно из основных предположений линейной модели регрессионного анализа, что влечет за собой особые проблемы. Более подробно эти проблемы мы обсудим в главе 9.

Подставляя последовательно значения переменных в полученное уравнение, найдем расчетные значения регрессии. Вычитая их из наблюдаемых значений переменной у, получим остатки:

По величине этих остатков можно сделать вывод, аналогичный выводу, сделанному в разделе 2.4 для простой линейной регрессии.

Сравнивая формулы (2.51) и (2.52) с (2.22) и (2.23), а также процедуры расчета, убеждаемся, что включение в регрессию новых объясняющих переменных усложняет аналитические выражения формул, а вместе с этим и вычисления. Обобщение модели множественной регрессии на объясняющих переменных требует использования матричных обозначений и владения техникой матричной алгебры. Кроме того, это необходимо для компактности изложения и применения некоторых стандартных вычислительных процедур, значительно облегчающих и ускоряющих проведение анализа }