Многофакторный линейный корреляционный и регрессионный анализ. Многофакторный корреляционный и регрессионный анализ

В экономических исследованиях результативный признак У формируется под влиянием нескольких факторных признаков
Х 1 , Х 2 , …, Х р. Уравнение множественной регрессии имеет вид
у = f(х 1 , х 2 , …, х р).

Теоретическое линейное уравнение регрессии имеет вид

Значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу при условии, что все остальные факторы остались неизменными. Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК, некоторые из них аналогичны парной регрессии:

1 0 . E (ε i) = 0 (i=1,...,n).

2 0 .

Первая строчка означает гомоскедастичность остатков, вторая предполагает отсутствие автокорреляции.

3 0 . X 1 , ... , Х п –неслучайные величины.

4 0 . Модель является линейной относительно параметров.

5 0 . Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели.

6 0 . Ошибки имеют нормальное распределение . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок.

Для нахождения коэффициентов линейной множественной регрессии представим данные наблюдений и параметры модели в матричной форме:

n -мерный транспонированный вектор – столбец наблюдений зависимой переменной;

– (p+1) -мерный транспонированный вектор – столбец параметров уравнения регрессии;

n -мерный транспонированный вектор – столбец отклонений выборочных значений y i .

Тогда значения независимых переменных запишем в виде прямоугольной матрицы размерности :

В этих обозначениях эмпирическое уравнение регрессии выглядит так: . Тогда функционал, который минимизируется по МНК, равен: Наилучшей оценкой является вектор .

Уравнение регрессии в стандартизованном масштабе имеет вид

где ,

σ -среднее квадратичное отклонение, β j – стандартизованные коэффициенты регрессии, которые показывают, насколько значений средних квадратичных отклонений (с.к.о.) изменится в среднем результат, если соответствующий фактор х j изменится на одно с.к.о. при неизменном среднем уровне других факторов.

Применяя МНК, после соответствующих преобразований получим систему нормальных уравнений:

Сравнивая коэффициенты β j между собой, можно ранжировать факторы по силе их воздействия на результат, а также использовать коэффициенты при отсеве факторов – из модели исключаются факторы с наименьшим значением β j .



Коэффициенты «чистой» регрессии b j связаны с
β -коэффициентами формулой .

Как и в случае парной регрессии, проверка гипотезы о статистической значимости уравнения регрессии осуществляется на основе дисперсионного анализа: Н 0: D факт = D ост против альтернативной гипотезы Н 1: D факт > D ост . При этом строится
F -статистика:

.

Если F наб > F табл (α; р; n p 1) , то Н о отклоняется, т. е. факторная дисперсия превышает остаточную, уравнение регрессии является статистически значимым.

Для проверки общего качества уравнения регрессии используется также коэффициент детерминации R 2 , который рассчитывается аналогично парой регрессии. Анализ статистической значимости коэффициента детерминации проводится на основе проверки Н 0 : R 2 = 0 против альтернативной гипотезы Н 1 : R 2 > 0. Для проверки данной гипотезы используется следующая
F -статистика:

.

Если F наб > F табл (α; р; n p 1) , то Н о отклоняется, что равносильно статистической значимости R 2 .

Наряду с коэффициентом детерминации используется скорректированный коэффициент детерминации

.

Статистическая значимость параметров множественной линейной регрессии с р факторами: Н 0: b j = 0 проверяется на основе t -статистики:

, ,

где - j -й диагональный элемент обратной матрицы , . Если |t наб | < t таб (1 α ; n p 1 ), параметр считается статистически незначимым и Н 0 не может быть отвергнута, фактор х j линейно не связан с результатом, поэтому переменную х j рекомендуется исключить из уравнения регрессии.

Доверительные интервалы для значимых коэффициентов находятся по формуле

Пусть объясняющие переменные принимают значение
Х Т 0 = (1; х 1 0 ; х 2 0 ;…;х р 0). Тогда доверительный интервал для функции регрессии равен

где .

Доверительный интервал для индивидуальных значений зависимой переменной:

где .

При исключении или добавлении факторов для проверки статистической значимости оставшихся коэффициентов используют статистику Фишера. Проверяя гипотезу , можно определить, существенно ли ухудшилось качество описания поведения зависимой переменной. Для этого используют статистику



.

Если F наб > , то Н о должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно.

Для оценки тесноты между признаками применяются парные, частные и множественные коэффициенты корреляции и детерминации.

Для линейной регрессии множественный коэффициент корреляции можно определить по формулам:

- , где Δr – определитель матрицы парных коэффициентов корреляции: ,

а Δr 11 – определитель, который остаётся после вычеркивания из матрицы коэффициентов парной корреляции первого столбца и первой строки;

Для модели, в которой присутствуют две независимые переменные, формула упрощается .

Коэффициенты частной корреляции для трехфакторной модели рассчитаем по формулам , , .

Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

.

Пример 2. Исследуется зависимость между стоимостью грузовой автомобильной перевозки Y (тыс. р.), весом груза X 1 (т) и расстоянием Х 2 (тыс. км) по 20 транспортным компаниям. Исходные данные приведены в табл. 6.

Таблица 6

Y X 1 X 2 Y X 1 X 2
1,3
1,1 0,35
2,55 5,8 1,65
7,5 1,7 13,8 3,5 2,9
2,4 6,2 2,8 0,75
1,55 7,9 0,6
11,5 0,6 5,4 3,4 0,9
2,3 2,5
15,8 1,4 25,5 2,2
2,1 7,1 4,5 0,95

Требуется:

1. Построить выборочное уравнение линейной множественной регрессии. Привести полученное уравнение к стандартизированному виду, сделать выводы о влиянии факторов на результирующий фактор. Определить коэффициенты эластичности.

2. Проверить статистическую значимость уравнения регрессии с помощью дисперсионного анализа и через коэффициент детерминации.

3. Проверить статистическую значимость параметров уравнения регрессии и для значимых коэффициентов построить доверительные интервалы.

5. Определите парные и частные коэффициенты корреляции, проверить их на значимость. Для значимых коэффициентов постройте доверительные интервалы.

7. Найти прогнозное значение у i , если х 1 =10, х 2 =5 , и доверительные интервалы для среднего и индивидуального значения у 0 .

Решение

1. Модель специфицируем в виде линейной функции:

Вектор В найдем по формуле :

Матрица Х Х Т

1,1 4,5
1,1 2,2 0,95
2,2
4,5 0,95

Х Т *Х (Х Т *Х) -1 Х Т *У

277,2 31,8 0,344766 -0,00562 -0,13643 454,5
277,2 5860,9 459,235 -0,00562 0,000503 -0,00085 8912,57
31,8 459,235 61,455 -0,13643 -0,00085 0,093251 908,555
-17,3133
1,156057
5,10401

Следовательно, уравнение регрессии имеет вид

Y = 17,31 + 1,16 X 1 + 15,10 Х 2 .

Для приведения к стандартному виду построим вспомогательную таблицу (табл. 7).

Таблица 7

Y X 1 X 2 Y 2 X 2 1 X 2 2
1,1 1,21
2,55 6,5025
7,5 1,7 56,25 2,89
2,4 5,76
1,55 2,4025
11,5 0,6 132,25 0,36
2,3 5,29
15,8 1,4 249,64 1,96
2,1 4,41
1,3 1,69
0,35 0,1225
5,8 1,65 33,64 2,7225
13,8 3,5 2,9 190,44 12,25 8,41
6,2 2,8 0,75 38,44 7,84 0,5625

Окончание табл.7

Y X 1 X 2 Y 2 X 2 1 X 2 2
7,9 0,6 62,41 0,36
5,4 3,4 0,9 29,16 11,56 0,81
2,5 6,25
25,5 2,2 650,25 4,84
7,1 4,5 0,95 50,41 20,25 0,9025
Σ 454,5 277,2 31,8 18206,89 5860,9 61,45

; 0,74;

= 0,77; = 0,56;

t Y = 0,77t x1 + 0,56t x2 .

То есть с ростом веса груза на одну сигму при неизменном расстоянии стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,77 сигмы. С ростом расстояния на одну сигму при неизменном весе груза стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,56 сигмы. Поскольку 0,77 > 0,56, то влияние веса груза на стоимость грузовых автомобильных перевозок больше, чем фактора расстояния.

Найдем коэффициенты эластичности:

= ,

= 1,05.

С увеличением среднего веса груза на 1% от его среднего уровня средняя стоимость перевозок возрастет на 0,71% от своего среднего уровня. При увеличении среднего расстояния перевозок на 1% средняя стоимость доставки груза увеличится на 1,05%. Поскольку 0,71 < 1,05, то влияние веса груза на стоимость грузовых автомобильных перевозок меньше, чем фактора расстояния. Различия в силе влияния факторов на результат, полученные при сравнении уравнения регрессии в стандартизованном масштабе и коэффициентов эластичности, объясняются тем, что коэффициент эластичности рассчитывается исходя из соотношения средних, а стандартизованные коэффициенты регрессии - из соотношения средних квадратических отклонений.

2. Проверим на значимость уравнение регрессии, для этого составим таблицу (табл. 8).

Таблица 8

|(y-y р)/y|
53,45 799,193 6,00 0,0462095
17,82 45,293 3,31 0,1123748
42,04 2628,613 1021,76 0,4322848
10,64 231,953 9,86 0,4234144
35,13 105,473 4,537 0,0642756
44,34 10,693 336,17 0,7018371
14,91 126,113 11,63 0,2930625
46,38 856,7329 31,58 0,10909
18,87 48,025 9,43 0,193736
16,68 216,973 75,34 1,0896515
26,64 10,693 0,41 0,0230416
0,695 279,893 28,143 0,8850491
11,045 286,625 27,51 0,9097353
30,5 79,7449 278,89 1,2126453
-2,777 273,241 80,587 1,4432832
11,43 219,929 12,461 0,4432973
0,184 300,329 27,207 0,9609482
48,24 1106,893 60,218 0,1394274
26,31 7,673 0,6561 0,0321573
2,215 244,297 23,863 0,684825
Сум. 454,732 7878,378 2049,568 10,200346

Проверка с помощью дисперсионного анализа:

Н 0: D факт = D ост ; Н 1: D факт > D ост ;

Q об = 7878,378; Q ост =2049,558; Q факт = 5828,82;

F н = (5828,82/2049,56)·(17/2) = 24,17.

Так как F н > F кр (0,05; 2; 17) = 3,59 , то нулевая гипотеза отклоняется и уравнение множественной регрессии статистически значимо.

Проверка с помощью коэффициента детерминации:

; .

Он показывает, что 74% различий стоимости всех перевозок объясняется вариацией их грузоподъемности и расстояния, а
16% - другими, неучтенными факторами. Скорректированный коэффициент детерминации достаточно велик, следовательно, смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки:

Н 0 : R 2 = 0 ; Н 1 : R 2 > 0.

.

Так как F фак > F кр (0,05; 2; 17) = 3,59, то Н 0 отклоняется, коэффициент детерминации отличается от нуля, следовательно, уравнение регрессии статистически значимо.

3. Проверим статистическую значимость коэффициентов регрессии:

Н 0: b 0 = 0; Н 1: b 0 ≠ 0.

; ;

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля, доверительный интервал (– 30,92; – 3,71).

Н 0: b 1 = 0; Н 1: b 1 ≠ 0.

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля,доверительный интервал (0,64; 1,68).

Н 0: b 2 = 0; Н 1: b 2 ≠ 0.

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля,доверительный интервал (8,03; 22,18).

4.Определим ошибку аппроксимации А = = 51%. Фактические значения стоимости перевозок от расчетных данных по уравнению регрессии в среднем отличаются на 51% .

5.Определим парные и частные коэффициенты корреляции. Для этого построим таблицу (табл. 9).

Таблица 9

Y X 1 X 2 Y 2 x 1 2 x 2 2 yx 1 yx 2 х 1 x 2
1,1 1,21 17,6 17,6
2,55 6,5025 188,7 45,9
7,5 1,7 56,25 2,89 12,75 3,4
2,4 5,76 79,2 33,6
1,55 2,4025 40,3 51,15
11,5 0,6 132,25 0,36 6,9
2,3 5,29 119,6 57,5
15,8 1,4 249,64 1,96 205,4 22,12 18,2
2,1 4,41 16,8 4,2
1,3 1,69 33,8 27,3
0,35 0,1225 2,1 3,85
5,8 1,65 33,64 2,7225 17,4 9,57 4,95
13,8 3,5 2,9 190,44 12,25 8,41 48,3 40,02 10,15
6,2 2,8 0,75 38,44 7,84 0,5625 17,36 4,65 2,1
7,9 0,6 62,41 0,36 134,3 4,74 10,2
5,4 3,4 0,9 29,16 11,56 0,81 18,36 4,86 3,06
2,5 6,25
25,5 2,2 650,25 4,84 229,5 56,1 19,8
7,1 4,5 0,95 50,41 20,25 0,9025 31,95 6,745 4,275
Ср. знач. 22,73 13,86 1,59 910,34 293,05 3,07 445,63 45,43 22,96

Матрица парных коэффициентов корреляции имеет вид .

Проверим их на значимость Н 0: ρ = 0 при Н 1: ρ ≠ 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 ;

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим;

< t кр (0,05; 18) = 2,1 -гипотеза Н 0 не отвергается, коэффициент корреляции статистически не значим.

На основе матрицы корреляции найдем еще раз коэффициент детерминации: Δ = 0,256; Δ 11 = 0,984; R 2 = 1 – 0,246/0,984 =
= 0,74; .
Величина множественного коэффициента детерминации свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится. Множественный коэффициент детерминации можно рассчитать по формулам

Рассчитаем частные коэффициенты корреляции. Коэффициенты частной корреляции характеризуют тесноту связи между двумя переменными, исключив влияние третьей переменной:

;

;

.

Связь между стоимостью перевозок и весом груза прямая и тесная, между стоимостью перевозок и расстоянием прямая и тесная, между весом груза и расстоянием обратная и средняя. Проверим их на значимость Н 0: ρ = 0 при Н 1: ρ ≠ 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим;

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим.

Для значимых коэффициентов корреляции построим доверительный интервал. Для этого вычислим ; ; ; ; .

Тогда ;

6. Рассчитаем частные F -критерии Фишера и оценим целесообразность включения в уравнение одного из факторов после другого:

Н 0: R 2 = r 2 yx1 ; Н 1: R 2 ≠ r 2 yx1.

F часх1 = > F кр = 4,45 , следовательно, приходим к выводу о целесообразности включения в модель фактора х 2 после фактора х 1 .

Н 0: R 2 = r 2 yx2 ; Н 1: R 2 ≠ r 2 yx2.

F часх2 = > F кр = 4,45 , следовательно, приходим к выводу о нецелесообразности включения в модель фактора х 1 после фактора х 2 .

7. Стоимость грузовых перевозок при весе груза 10 т и расстояние 5 км , т.е. x 0 T =(1; 10; 5), составит y 0 = – 17,31 + 1,16 10 +
+ 15,10 5 = 69,77 тыс. р.

Доверительный интервал для среднего составит
(44,77; 94,76 ), где Х 0 Т ·(Х Т ·Х) -1 ·Х о = 1,16; ; t кр (0,95; 17) = 2,11.

Доверительный интервал для индивидуального значения ― (35,69; 103,85 ), где .

Вопросы для самоконтроля

1. Перечислите предпосылки МНК. Каковы последствия их невыполнимости либо выполнимости? В чем суть наилучших линейных несмещенных оценок?

2. Сформулируйте алгоритм определения коэффициентов регрессии в матричной форме. Что характеризуют коэффициенты регрессии?

3. Опишите схему проверки гипотез о величинах коэффициентов регрессии. В чем суть статистической значимости коэффициентов регрессии? Опишите «грубое» правило анализа статистической значимости коэффициентов регрессии.

4. Как определяются стандартные ошибки регрессии и коэффициентов регрессии? Приведите схему определения интервальных оценок коэффициентов регрессии.

5. Как осуществляется анализ качества эмпирического уравнения множественной линейной регрессии?

6. Объясните суть коэффициента детерминации множественной регрессии. В каких пределах он изменяется? Сформулируйте схему проверки статистической значимости коэффициента детерминации.

7. Чем скорректированный коэффициент детерминации отличается от обычного?

8. Как строится и что позволяет определить доверительный интервал для условного математического ожидания зависимой переменной? В чем суть предсказания индивидуальных значений зависимой переменной?

9. Сформулируйте критерий проверки целесообразности включения или исключения независимых факторов.

10. Что называется линейным коэффициентом множественной корреляции и как с помощью матрицы парных коэффициентов корреляции его можно определить?

11. Как определяются частные коэффициенты корреляции? Как связаны коэффициент частной корреляции и коэффициент детерминации?

12. Что представляет собой фиктивная переменная? Каковы основные причины использования фиктивных переменных в регрессионных моделях? В чем суть «ловушки» фиктивных переменных?

13. Что представляют собой ANOVA-модели? Что представляют собой ANCOVA-модели? Приведите примеры их использования.

14. Объясните значение термина «мультиколлинеарность». В чем отличие совершенной и несовершенной мультиколлинеарности? Каковы последствия мультиколлинеарности?

15. Как можно обнаружить и устранить мультиколлинеарность?

16. В чем сущность гетероскедастичности? Сформулируйте последствия гетероскедастичности.

17. Приведите схемы теста ранговой корреляции Спирмена и Голдфелда – Квандта для проверки на гомоскедастичность.

18. В чем суть метода взвешенных наименьших квадратов?

19. Что такое автокорреляция? Каковы причины и последствия автокорреляции?

20. Опишите схему использования статистики Дарбина – Уотсона. Перечислите ограничения ее использования.


Временные ряды

Экономические процессы и явления, их связи и зависимости могут рассматриваться как в пространстве, так и во времени, путем построения и анализа одного или нескольких временных рядов.

Временной ряд (динамический ряд или ряд динамики) ― совокупность изучаемого показателя в последовательные моменты времени. Отдельные наблюдения называются уровнями ряда у t , t=1,…,n, где n – число уровней. Под длиной ряда понимают время, прошедшее от начального момента наблюдения до конечного. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые можно условно разделить на три группы:

Факторы, формирующие тенденцию ряда (Т ). Тенденция характеризует долговременное воздействие факторов на динамику показателя. Тенденция может быть возрастающей или убывающей;

Факторы, формирующие циклические колебания ряда (S ). Циклические колебания могут носить сезонный характер или отражать динамику конъюнктуры рынка, а также фазу бизнес-цикла, в которой находится экономика страны;

Случайные факторы (E ), отражающие влияние, не поддающееся учету и регистрации.

Модель, в которой временной ряд представлен как сумма перечисленных выше компонент, называется аддитивной моделью временного ряда (), в случае произведения – мультипликативной моделью ().

Основная задача эконометрического исследования временного ряда – выявление количественного выражения каждой из компонент и использование полученной информации для прогноза будущих значений ряда или построение модели взаимосвязи двух или более временных рядов.

Для выявления наличия той или иной неслучайной компоненты исследуется корреляционная зависимость между последовательными уровнями временного ряда, или автокорреляция уровней ряда

где

Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. Последовательность коэффициентов автокорреляции уровней различных порядков, начиная с первого, называется автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага называется коррелограммой.

Если наиболее высоким является коэффициент автокорреляции первого порядка, очевидно, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка τ , ряд содержит циклические колебания с периодичностью в τ моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то либо ряд не содержит тенденции и циклических колебаний и имеет только случайную составляющую, либо ряд содержит сильную нелинейную тенденцию, для исследования которой нужно провести дополнительный анализ.

В случае, если при анализе структуры временного ряда обнаружена только тенденция и отсутствуют циклические колебания, следует приступать к моделированию тенденции. Если же во временном ряде имеют место и циклические колебания, прежде всего следует исключить именно циклическую составляющую и лишь затем приступать к моделированию тенденции.

Построение аналитической функции для моделирования тенденции (тренда) временного ряда называют аналитическим выравниванием временного ряда. Тенденция во времени может принимать разные формы, для ее формализации используются следующие функции:

Линейная: ;

Полиномиальная: , где
а 1 - линейный прирост, а 2 - ускорение роста, а 3 - изменение ускорения роста;

Гипербола: ;

Экспоненциальный тренд: (или ), где а - начальный уровень, e b - средний за единицу времени коэффициент роста;

Степенной тренд: .

Параметры каждого из трендов можно определить обычным МНК, используя в качестве независимой переменной время t , а в качестве зависимой переменной – фактические уровни временного ряда y t . Для нелинейных трендов предварительно проводят стандартную процедуру линеаризации.

Для выявления полиномиального тренда применяется метод последовательных разностей, состоящий в вычислении последовательных разностей Δt к при к = 1, 2,…,n:

Δt = y t - y t-1 ; Δt 2 = Δ t - Δ t-1 ;…; Δt к = Δt (к-1) – Δ(t-1) (к-1) .

Если примерно одинаковы все абсолютные приросты Δt , то имеем линейный тренд; если абсолютные ускорения Δt 2 , то тренд - парабола. Анализ цепных коэффициентов роста К t = y t /y t-1 позволяет выявить наличие экспоненциального или степенного тренда.

Пример 3. Пусть имеются данные (табл. 10) об объёмах потребления электроэнергии жителями района за 16 кварталов, м. квт.-ч:

Таблица 10

t y t t y t
4,4 5,6
6,4
7,2
4,8 6,6
10,8

Требуется:

1. Построить график временного ряда и определить автокорреляционную функцию. Определить составляющие временного ряда.

2. Если ряд содержит сезонную компоненту, то выявить и устранить ее с помощью статистических методов, построив аддитивную модель.

– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов.

Многофакторный корреляционный и регрессионный анализ позволяет оценить меру влияния на исследуемый результативный показатель каждого из включенных в модель (уравнение) факторов при фиксированном положении (на среднем уровне) остальных факторов. Он позволяет также при любых возможных сочетаниях факторов с определенной степенью точности найти теоретическое значение этого показателя (важным условием является отсутствие между факторами функциональной связи).

Математически задача формулируется следующим образом. Требуется найти аналитическое выражение, наилучшим образом отражающее установленную теоретическим анализом связь независимых признаков с результативным, т.е. функцию:

В условиях использования ЭВМ выбор аппроксимирующей математической функции осуществляется перебором решений, наиболее часто применяемых в анализе корреляции уравнений регрессии.

После выбора типа аппроксимирующей функции приступают к многофакторному корреляционному и регрессионному анализу, задачей которого является построение уравнения множественной регрессии и нахождение его неизвестных параметров.

Параметры уравнения множественной регрессии, как и в случае парной регрессии, находят по способу наименьших квадратов.

Для расчета параметров простейшего уравнения множественной линейной двухфакторной регрессии, которая имеет вид:

где _ расчетные значения зависимой переменной (результативного признака);

x 1, х 2 _ независимые переменные (факторные признаки);

a 0, a 1, a 2 _ параметры уравнения,

строится следующая система нормальных уравнений:

(8.5)

Параметры этой системы могут быть найдены методом К. Гаусса.

Парные коэффициенты корреляции применяются для измерения тесноты связи между двумя из рассматриваемых переменных (без учета их взаимодействия с другими переменными). Методика расчета таких коэффициентов и их интерпретация аналогичны методике расчета линейного коэффициента корреляции в случае однофакторной связи. Если известны средние квадратические отклонения анализируемых величин, то парные коэффициенты корреляции можно рассчитать проще, по следующим формулам:



(8.6)

(8.7)

. (8.8)

Частные коэффициенты корреляции. Однaкo в реальныx условиях все переменные, как правило, взaимoсвязaны. Тeснота этой связи определяется частными кoэффициентами корреляции, которые характеризуют степень и влияние одного из аргументов на функцию при условии, что остальные независимые переменные закреплены на постоянном уровне. В зависимости от количества переменных, влияние которых исключается, частные коэффициенты корреляции могут быть различного порядка: при исключении влияния одной переменной получаем частный коэффициент корреляции первого порядка; при исключении влияния двух переменных _ второго порядка и т.д. Парный коэффициент корреляции между функцией и аргументом обычно не равен соответствующему частному коэффициенту.

Частный коэффициент корреляции первого порядка между признаками x 1 и y при исключении влияния признака х 2 вычисляют по формуле:

(8.9)

Зависимость y от х 2 при исключенном влиянии x 1 рассчитывают по формуле:

(8.10)

(8.11)

где r _ парные коэффициенты корреляции между соответствующими признаками.

Показателем тесноты связи, устанавливаемой между результативными и двумя или более факторными признаками, является совокупный коэффициент множественной корреляции _ . В случае линейной двухфакторной связи совокупный коэффициент множественной корреляции может быть рассчитан по формуле:

(8.12)

где r _ линейные коэффициенты корреляции (парные); подстрочные индексы показывают, между какими признаками они исчисляются.

Совокупный коэффициент множественной корреляции измеряет одновременное влияние факторных признаков на результативный. Его значения находятся в пределах _1 до +1. Чем меньше наблюдаемые значения изучаемого показателя отклоняются от линии множественной регрессии, тем корреляционная связь является более интенсивной, а следовательно, значение R ближе к единице.

Совокупный коэффициент множественной детерминации. Величина R 2 называется совокупным коэффициентом множественной детерминации . Она показывает, какая доля вариации изучаемого показателя объясняется влиянием факторов, включенных в уравнение множественной регрессии. Значение совокупного коэффициента множественной детерминации находится в пределах от 0 до 1. Поэтому, чем ближе R 2 к единице, тем вариация изучаемого показателя в большей мере характеризуется влиянием отобранных факторов.

Динамические ряды

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

Теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;

    выбор формы связи (уравнения регрессии);

    отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);

    вычисление параметров уравнения регрессии и коэффициентов корреляции;

    проверка адекватности полученной модели;

    интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос – рост – пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

    метода пошагового исключения;

    метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков , даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторамии:

.

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным- коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков.

Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):.

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при- том факторе,- среднее значение-того фактора,- среднее значение результативного признака.

Коэффициенты показывают, на какую часть среднего квадратического отклоненияизменяется результативный признакс изменением- того факторного признакана величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение-того фактора,- среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака .

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

    оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;

    оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции – показатели, характеризующие тесноту связи междутым итым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

    Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

    Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции.:

,

где - количество признаков,- выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

Где- определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле

Где- алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

Многофакторный корреляционно - регрессионный анализ

Таблица 4. Исходные данные.

уровеньбезраб-цы

доходнасел-я

индексцен

индексВРП

Для анализа необходимо из нескольких факторов произвести предварительный отбор факторов для регрессионной модели. Сделаем это по итогам расчета коэффициента корреляции, т.е. возьмем те факторы, связь которых с результативным признаком будет выражена в большей степени. Рассмотрим следующие факторы:

Доход на душу населения - x 1 (%)

Индекс потребительских цен - x 2 (%)

Индекс ВРП - x 3 (%)

Рассчитаем коэффициент корреляции для линейной связи и для имеющихся факторов - x 1 , x 2 и x 3:

Для фактора x 1 получаем коэффициент корреляции: r 1 = 0,042

Для фактора x 2 получаем коэффициент корреляции: r 2 =0,437

Для фактора x 3 получаем коэффициент корреляции: r 3 =0,151

По полученным данным можно сделать вывод о том, что:

1)Связь между x 1 и y отсутствует, так как коэффициент корреляции меньше 0,15. Таким образом, возникает необходимость исключить данный фактор из дальнейших исследований.

2)Связь между x 2 и y прямая (так как коэффициент корреляции положительный) и умеренная, так как она находится между 0,41 и 0,50. Поэтому, будем использовать фактор в дальнейших расчётах.

3)Связь между x 3 и y прямая (так как коэффициент корреляции положительный) и слабая. Тем не менее, будем использовать фактор в дальнейших расчетах.

Таким образом, два наиболее влиятельных фактора - Индекс потребительских цен - x 2 и индекс ВРП - x 3 . Для имеющихся факторов x 2 и x 3 составим уравнение множественной регрессии.

Проверим факторы на мультиколлинеарность, для чего рассчитаем коэффициент корреляции r x2x3 . Подставив имеющиеся данные (из таблицы 10) в формулу, имеем следующее значение: r x2x3 =0,747. Полученный коэффициент говорит об очень высокой связи, поэтому дальнейший анализ по обоим факторам вестись не может. Однако в учебных целях продолжим анализ.

Проводим оценку существенности связи с помощью коэффициента множественной корреляции: R=0,512

Так как R < 0,8, то связь признаем не существенной, но, тем не менее, в учебных целях, проводим дальнейшее исследование.

Уравнение прямой имеет следующий вид: y = a + bx 1 + cx 3

Для определения параметров уравнения необходимо решить систему:

Решив систему, получим уравнение: Y=41,57-0,042 x 1 -0,183x 3

Для данного уравнения найдем ошибку аппроксимации:

А> 5%, то данную модель нельзя использовать на практике.

Проведем оценку параметров на типичность. Рассчитаем значения величин:

m a =0,886; m b =0,0003; m с =0,017;

t a =41,57/0,886=46,919; t b =-0,042/0,0003=-140; t c =-0,183/0,017=-10,77.

Сравним полученные выше значения t для б = 0,05 и числа степеней свободы (n-2) с теоретическим значением t-критерия Стьюдента, который t теор = 2,1788. Расчетные значения t b и t с < t теор, значит данные параметры не значимы и данное уравнение не используется для прогнозирования.

где: n - число уровней ряда; к - число параметров; R - коэффициент множественной корреляции.

После расчета получаем: F=1,41

Сравним F расч с F теор для числа степеней свободы U 1 = 9 и U 2 = 2, видим, что 1,41 < 19,40, то есть F расч < F теор - связь признаётся не существенной, то есть корреляция между факторами x 2 , x 3 и у не существенна.