Як розрахувати коефіцієнт лінійної кореляції Пірсона
Коефіцієнт лінійної кореляції Пірсона дозволяє оцінити лінійну залежність між двома змінними (позначимо їх x і y). Розглянемо приклад з області економіки: припустимо, ви володієте рестораном. Для кожного десятого відвідувача ви записуєте час, проведений ним у вашому ресторані (x, хвилини) і витрачену ним суму (y, рублі). Чи є вірним те, що ті, хто довше засиджується в ресторані, залишають у ньому більше грошей? У цьому випадку між двома змінними буде спостерігатися позитивна кореляція. Або навпаки, чим багатша клієнт, тим менше часу він витрачає на обід? У такому випадку буде спостерігатися негативна кореляція. Щоб пролити світло на дане питання, ви можете вирахувати коефіцієнт лінійної кореляції r, відомий також як коефіцієнт кореляції Пірсона.
Примітка: У статті наведено формули, що використовуються в лінійному методі найменших квадратів, що дозволяють апроксимувати набір точок на площині прямою лінією.
Кроки
1
Видаліть неповні пари x-y. У наступних кроках використовуйте лише ті точки (вимірювання), для яких відомі значення як x, так і y. Але не виключайте ті вимірювання, для яких значення однієї із змінних дорівнює нулю.2
Знайдіть величини, необхідні для обчислень:- n - загальна кількість пар даних.
- ?(X) - сума квадратів всіх значень x.
- ?x - сума всіх значень x.
- ?(X * y) - сума добутків кожного значення x, помноженого на відповідне йому значення y.
- ?y - сума всіх величин y.
- ?(Y) - сума квадратів всіх значень y.
3
Обчисліть ssxy, ssxx і ssyy за такими формулами:- ssxy=? Xy - (? X? Y? N) = 283- (12 * 93/5) = 59,8
- ssxx=? X - (? X? X? N) = 40- (12 * 12/5) = 11,2
- ssyy=? Y - (? Y? Y? N) = 2089- (93 * 93/5) = 359,2
4
Підставте ці величини в формулу для коефіцієнта лінійної кореляції Пірсона r. Ви отримаєте величину, що лежить в інтервалі між 1 і -1, включаючи межі даного інтервалу.r = ssxy/ (Ssxx* Ssyy) ** 0,5 = 59,8 / (11,2 * 359,2) ** 0,5 = 0,9428
- Значення коефіцієнта, близьке до 1 означає сильну позитивну кореляцію, тобто з ростом x збільшується і y.
- Якщо коефіцієнт близький до 0, то кореляція слабка або відсутня зовсім.
- У разі близькості коефіцієнта до -1 спостерігається сильна негативна кореляція, тобто при зростанні x значення y зменшуються.
Поради
- Завжди будуйте графік з нанесеними на нього точками. В іншому випадку ви можете втратити закономірність, оскільки коефіцієнт лінійної кореляції враховує для передбачення значень y за значеннями x лише пряму лінію.
- Ось чому багато анкети містять практично повторювані питання, відповіді на які навіюють нудьгу. Укладачі таких анкет знають безліч відомостей про питання x і питанні y окремо, але вони не мають ні найменшого уявлення, як ці питання корелюють, тобто взаємопов`язані один з одним.
Попередження
- Перед тим як стверджувати, що дві змінні взаємопов`язані, перевірте, чи є значення обчисленого коефіцієнта кореляції статистично значущим. Іншими словами, чи не вийшло дане значення в результаті простого збігу. Наприклад, буває так, що всі точки лягають на одну пряму лінію, коефіцієнт дорівнює +1 або -1, але все одно кореляція виглядає непереконливо. Якщо коефіцієнт кореляції не є статистично значущим, не має сенсу приводити його значення.
- Якщо кореляція статистично значуща, це все одно не означає, що одна змінна однозначно "залежить" від іншої. Це доводить лише те, що за відомими значеннями змінної x можна з певною часткою ймовірності передбачити відповідні значення y, і навпаки.