2.2 Лінійний регресійний та кореляційний аналіз двох змінних.
У загальному вигляді вибіркова регресійна модель з двома змінними записується так:
(2.1)
де — вектор спостережень за залежною зміною;
— вектор спостережень за незалежною змінною;
— невідомі параметри регресійної моделі;
— вектор випадкових величин (помилок);
Задачею регресійного аналізу являється обчислення невідомих параметрів рівняння регресії . При цьому необхідно досягти «найкращої» апроксимації. Найчастіше при цьому користуються методом найменших квадратів, що передбачає мінімізацію виразу:
(2.2)
де - фактичні (емпіричні) та розрахункові (теоретичні) значення результативної ознаки.
Зробимо геометричну інтерпретацію метода найменших квадратів (Рис. 3).
На Рис.3 пряма є теоретичною лінією регресії. Із множини прямих необхідно вибрати «найкращу» з точки зору мінімізації суми квадратів відхилень :
Рис. 3
Відхилення, або помилки , ще іноді називають залишками. Теоретичну лінію регресії необхідно проводити таким чином, щоб сума квадратів помилок була мінімальною. В цьому і полягає метод найменших квадратів: невідомі параметри та визначаються таким чином, щоб мінімізувати . Мінімум функції (2.2) досягається за умови, коли перші похідні дорівнюють нулеві, тобто підставивши в вираз (2.2) замість та взявши частинні похідні , одержимо систему нормальних рівнянь
(2.3)
звідки:
;
.
Параметри мають наступну економічну інтерпретацію або зміст: параметр характеризує деяке середнє значення результативного показника , а параметр показує, як в середньому зміниться при зміні на одну одиницю.
Приклад. Нехай залежність денного виробітку робітника від рівня механізації праці описується рівнянням регресії
В цьому рівнянні параметр являється середнім денним виробітком при виконанні операції вручну, а - перевищення середнього виробітку при механізованому виконанні операції. А тому параметр показує, що при підвищенні рівня механізації на 1% денний виробіток зростає в середньому на 0,051 одиниць.
Для перевірки гіпотези про наявність зв’язку між економічними явищами і і оцінки тісноти цього зв’язку обчислюють коефіцієнт парної кореляції , якщо зв’язок лінійний, і кореляційне відношення , якщо зв’язок нелінійний. Для обчислення коефіцієнта кореляції в літературі пропонуються різні формули. Розглянемо деякі з них:
(2.4)
(2.5)
(2.6)
— довжина вибірки або кількість спостережень;
— коефіцієнт коваріації між змінними ;
— дисперсія змінної ;
— дисперсія змінної ;
Коефіцієнт кореляції змінюється в інтервалі:
При між у та х існує пряма або обернена функціональна залежність. При коефіцієнті кореляції, рівному 0, між та х не існує кореляційного зв’язку. Якщо коефіцієнт кореляції знаходиться в інтервалі - , або , між та існує обернена або пряма кореляційна залежність.
По щільності зв’язку можна виділити:
а) слабий зв’язок, якщо
б) середній зв’язок, якщо
в) сильний зв’язок, якщо
Для визначення долі варіації результативного показника під впливом варіації фактора обчислюють коефіцієнт детермінації . Припустимо, що тоді можна сказати, що 80% варіації результативного показника відбувається під впливом фактора х, а решта 20% приходиться на інші фактори та випадкові величини.
При виявленні зв’язку між варіацією факторної ознаки (х) і варіацією результативної ознаки (у) використовують слідуючі дисперсії:
1) дисперсія, яка вимірює загальну варіацію за рахунок дії всіх факторів, або загальна дисперсія:
(2.7)
2) дисперсія, яка вимірює варіацію результативної ознаки за рахунок дії факторної ознаки , або дисперсія, що пояснює регресію:
(2.8)
3) залишкова дисперсія, яка характеризує варіацію ознаки за рахунок всіх факторів, крім (тобто при виключенні ), або дисперсія помилок:
(2.9)
Тоді по правилу додавання дисперсій:
(2.10)
Або:
(2.11)
де — загальна сума квадратів, яка позначається через SST;
— сума квадратів помилок, яка позначається через SSE;
— сума квадратів, що пояснює регресію та позначається через SSR
Вираз (2.11) запишемо у скороченому вигляді:
SST=SSE+SSR (2.12)
Таким чином, ми розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини).
Поділивши обидві частини виразу (2.10) на , отримаємо:
(2.11)
Із виразу (2.11) виплаває, що перша частина є питомою вагою помилок у загальній дисперсії, тобто часткою дисперсії, яку не можна пояснити через регресійний зв’язок. Друга частина є складовою дисперсії, яку можна пояснити через лінію регресійної.
Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається . Коефіцієнт детермінації використовується як критерій адекватності моделі, бо є мірою пояснювальної сили незалежності змінної х.
Таким чином, коефіцієнт детермінації:
(2.12)
(2.13)
Із виразу (2.12) випливає, що коефіцієнт детермінації завжди додатній і знаходиться у межах .
Між коефіцієнтом кореляції і нахилом та середнім квадратичним відхиленням існує певний зв’язок. Це дає можливість розрахувати параметри вибіркового рівняння регресії через ці величини.
Оскільки (2.14)
(2.15)
то можна записати вираз для коефіцієнта кореляції:
(2.16)
Запишемо формули для розрахунку параметрів економетричної моделі:
(2.17)
(2.18)
Необхідно відмітити, що при лінійній формі зв’язку коефіцієнт кореляції є оцінкою точності апроксимації тобто адекватності моделі і дорівнює кореляційному відношенні . Після побудови моделі обчислюється також середня відносна похибка апроксимації, %:
(2.19)
Середня похибка апроксимації показує в процентах середнє для всіх значень результативного показника відхилення розрахункових значень. Модель можна вважати адекватною, якщо середня похибка апроксимації буде знаходитись у межах 12-15%.
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 Наверх ↑