2.2 Лінійний регресійний та кореляційний аналіз двох змінних.

У загальному вигляді вибіркова регресійна модель з двома змінними записується так:

   (2.1)

де  — вектор спостережень за залежною зміною;

 

 — вектор спостережень за незалежною змінною;

 

 — невідомі параметри регресійної моделі;

 — вектор випадкових величин (помилок);

 

Задачею регресійного аналізу являється обчислення невідомих параметрів  рівняння регресії  . При цьому необхідно досягти «найкращої» апроксимації. Найчастіше при цьому користуються методом найменших квадратів, що передбачає мінімізацію виразу:

(2.2)

де  - фактичні (емпіричні) та розрахункові (теоретичні) значення результативної ознаки.

Зробимо геометричну інтерпретацію метода найменших квадратів (Рис. 3).

На Рис.3 пряма є теоретичною лінією регресії. Із множини прямих необхідно вибрати «найкращу» з точки зору мінімізації суми квадратів відхилень  :

 

Рис. 3

Відхилення, або помилки  , ще іноді називають залишками. Теоретичну лінію регресії необхідно проводити таким чином, щоб сума квадратів помилок була мінімальною. В цьому і полягає метод найменших квадратів: невідомі параметри  та  визначаються таким чином, щоб мінімізувати . Мінімум функції (2.2) досягається за умови, коли перші похідні дорівнюють нулеві, тобто підставивши в вираз (2.2) замість  та взявши частинні похідні  , одержимо систему нормальних рівнянь

Параметри  мають наступну економічну інтерпретацію  або зміст: параметр  характеризує деяке середнє значення результативного показника , а параметр  показує, як в середньому зміниться  при зміні  на одну одиницю.

Приклад. Нехай залежність денного виробітку робітника від рівня механізації праці описується рівнянням регресії

 

В цьому рівнянні параметр  являється середнім денним виробітком при виконанні операції вручну, а  - перевищення середнього виробітку при механізованому виконанні операції. А тому параметр показує, що при підвищенні рівня механізації на 1% денний виробіток зростає в середньому на 0,051 одиниць.

Для перевірки гіпотези про наявність зв’язку між економічними явищами  і  і оцінки тісноти цього зв’язку обчислюють коефіцієнт парної кореляції  , якщо зв’язок лінійний, і кореляційне відношення  , якщо зв’язок нелінійний. Для обчислення коефіцієнта кореляції в літературі пропонуються різні формули. Розглянемо деякі з них:

  — довжина вибірки або кількість спостережень;

 — коефіцієнт коваріації між змінними  ;

 

 — дисперсія змінної  ;

 

 — дисперсія змінної  ;

 

Коефіцієнт кореляції змінюється в інтервалі:

 

При   між у та х існує пряма або обернена функціональна залежність. При коефіцієнті кореляції, рівному 0, між  та х не існує кореляційного зв’язку. Якщо коефіцієнт кореляції знаходиться в інтервалі - , або , між  та  існує обернена або пряма кореляційна залежність.

По щільності зв’язку можна виділити:

а) слабий зв’язок, якщо 

б) середній зв’язок, якщо 

в) сильний зв’язок, якщо 

Для визначення долі варіації результативного показника під впливом варіації фактора обчислюють коефіцієнт детермінації  . Припустимо, що  тоді можна сказати, що 80% варіації результативного  показника  відбувається під впливом фактора х, а решта 20% приходиться на інші фактори та випадкові величини.

При виявленні зв’язку між варіацією факторної ознаки (х) і варіацією результативної ознаки (у) використовують слідуючі дисперсії:

1) дисперсія, яка вимірює загальну варіацію за рахунок дії всіх факторів, або загальна дисперсія:

  (2.7)

2) дисперсія, яка вимірює варіацію результативної ознаки  за рахунок дії факторної ознаки   , або дисперсія, що пояснює регресію:

 (2.8)

3) залишкова дисперсія, яка характеризує варіацію ознаки  за рахунок всіх факторів, крім  (тобто при виключенні ), або дисперсія помилок:

 (2.9)

Тоді по правилу додавання дисперсій:

 (2.10)

Або:

 (2.11)

де  — загальна сума квадратів, яка позначається через SST;

 — сума квадратів помилок, яка позначається через SSE;

 — сума квадратів, що пояснює регресію та позначається через SSR

Вираз  (2.11)  запишемо у скороченому вигляді:

SST=SSE+SSR (2.12)

Таким чином, ми розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини).

Поділивши обидві частини виразу (2.10) на  , отримаємо:

 (2.11)

Із виразу (2.11) виплаває, що перша частина  є питомою вагою помилок у загальній дисперсії, тобто часткою дисперсії, яку не можна пояснити через регресійний зв’язок. Друга частина  є складовою дисперсії, яку можна пояснити через лінію регресійної.

Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається  . Коефіцієнт детермінації використовується як критерій адекватності моделі, бо є мірою пояснювальної сили незалежності змінної х.

Таким чином, коефіцієнт детермінації:

 (2.12)

 (2.13)

Із виразу (2.12) випливає, що коефіцієнт детермінації завжди додатній і знаходиться у межах  .

Між коефіцієнтом кореляції і нахилом  та середнім квадратичним відхиленням  існує певний зв’язок. Це дає можливість розрахувати параметри вибіркового рівняння регресії  через ці величини.

Оскільки  (2.14)

  (2.15)

то можна записати вираз для коефіцієнта кореляції:

  (2.16)

Запишемо формули для розрахунку параметрів економетричної моделі:

  (2.17)

  (2.18)

Необхідно відмітити, що при лінійній формі зв’язку коефіцієнт кореляції  є оцінкою точності апроксимації тобто адекватності моделі і дорівнює кореляційному відношенні  . Після побудови моделі обчислюється також середня відносна похибка апроксимації, %:

 (2.19)

Середня похибка апроксимації показує в процентах середнє для всіх значень результативного показника відхилення розрахункових значень. Модель можна вважати адекватною, якщо середня похибка апроксимації буде знаходитись у межах 12-15%.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46  Наверх ↑