Як провести регресійний аналіз
Значний розділ статистики присвячений аналізу регресійних моделей. Такий аналіз проводиться як при використанні множинної регресійної моделі з декількома змінними, так і простої лінійної моделі з однією незалежною змінною. У цій статті розповідається, як провести регресійний аналіз.
Кроки
1
Створіть модель, засновану на теорії. Визначте змінну, значення якої цікавить вас, і вирішите, які змінні будуть незалежними і пов`язаними лінійно з першої змінної.2
Зберіть дані. Взагалі кажучи, для цього необхідно провести контрольований експеримент, але часто доводиться мати справу з результатами спостережень.3
Намалюйте діаграму, що зв`язує отримані дані. Діаграма або графік допоможуть помітити можливі кореляції між змінними. Однак часто це неможливо при наявності декількох незалежних змінних.4
Визначте рівняння регресії. Зазвичай це робиться за допомогою комп`ютерних програм, особливо якщо в рівняння входить декілька незалежних змінних.5
Перевірте, чи виконуються необхідні умови. Якщо ні, відкоригуйте рівняння. Необхідне виконання наступних умов:- Розподіл ймовірності випадкової помилки? є нормальним.
- Середнє значення випадкової помилки дорівнює 0.
- Стандартне відхилення випадкової помилки є постійною величиною (??).
- Помилки незалежні.
6
Перевірте точки, різко випадають із залежності, і взаємно залежні дані. Ці значення можуть значно вплинути на всю регресійну модель, і необхідно визначити, включати їх в розрахунки або відкинути.7
Оцініть точність моделі. Для цього використовуються три статистичних параметри:- Стандартна помилка математичного очікування
- Коефіцієнт детермінації і наведений коефіцієнт детермінації
- F-тест, або критерій Фішера при аналізі дисперсії
8
Знайдіть і проаналізуйте коефіцієнти для кожної змінної.- Пам`ятайте, якщо перевірка показала, що будь-яка змінна не є значущою, це справедливо лише для конкретної моделі-у випадку іншої моделі все може бути інакше.
- Не пропустіть множинної коллинеарности. Вона спостерігається тоді, коли незалежні змінні взаємопов`язані між собою, і в цьому випадку з залежною змінною їх пов`язує не лінійна залежність. Це впливає лише на коефіцієнти кожної змінної, але не на F-тест всієї моделі.
- Пам`ятайте, що значення коефіцієнтів коректні лише для конкретного набору даних, використаного при побудові даної моделі, тому будьте обережні при екстраполяції створеної моделі. Зокрема, значення на осі ординат в точці перетину цієї осі з регресійної прямої часто не має ніякого сенсу.
9
Використовуйте побудовану модель для передбачення значень залежної змінної, або для оцінки очікуваної величини цієї змінної.
Поради
- При навчанні вам зазвичай дають в якості вправи набір даних або роздруківку вже проведеного регресійного аналізу. Залежно від виду вихідних даних плануйте свої подальші дії.