Як розрахувати коефіцієнт лінійної кореляції Пірсона

Коефіцієнт лінійної кореляції Пірсона дозволяє оцінити лінійну залежність між двома змінними (позначимо їх x і y). Розглянемо приклад з області економіки: припустимо, ви володієте рестораном. Для кожного десятого відвідувача ви записуєте час, проведений ним у вашому ресторані (x, хвилини) і витрачену ним суму (y, рублі). Чи є вірним те, що ті, хто довше засиджується в ресторані, залишають у ньому більше грошей? У цьому випадку між двома змінними буде спостерігатися позитивна кореляція. Або навпаки, чим багатша клієнт, тим менше часу він витрачає на обід? У такому випадку буде спостерігатися негативна кореляція. Щоб пролити світло на дане питання, ви можете вирахувати коефіцієнт лінійної кореляції r, відомий також як коефіцієнт кореляції Пірсона.


Примітка: У статті наведено формули, що використовуються в лінійному методі найменших квадратів, що дозволяють апроксимувати набір точок на площині прямою лінією.

Кроки

  1. 1

    Видаліть неповні пари x-y. У наступних кроках використовуйте лише ті точки (вимірювання), для яких відомі значення як x, так і y. Але не виключайте ті вимірювання, для яких значення однієї із змінних дорівнює нулю.

  2. 2

    Знайдіть величини, необхідні для обчислень:
    • n - загальна кількість пар даних.
    • ?(X) - сума квадратів всіх значень x.
    • ?x - сума всіх значень x.



    • ?(X * y) - сума добутків кожного значення x, помноженого на відповідне йому значення y.
    • ?y - сума всіх величин y.
    • ?(Y) - сума квадратів всіх значень y.

  3. 3

    Обчисліть ssxy, ssxx і ssyy за такими формулами:
    • ssxy=? Xy - (? X? Y? N) = 283- (12 * 93/5) = 59,8


    • ssxx=? X - (? X? X? N) = 40- (12 * 12/5) = 11,2
    • ssyy=? Y - (? Y? Y? N) = 2089- (93 * 93/5) = 359,2

  4. 4

    Підставте ці величини в формулу для коефіцієнта лінійної кореляції Пірсона r. Ви отримаєте величину, що лежить в інтервалі між 1 і -1, включаючи межі даного інтервалу.
    r = ssxy/ (Ssxx* Ssyy) ** 0,5 = 59,8 / (11,2 * 359,2) ** 0,5 = 0,9428
    • Значення коефіцієнта, близьке до 1 означає сильну позитивну кореляцію, тобто з ростом x збільшується і y.
    • Якщо коефіцієнт близький до 0, то кореляція слабка або відсутня зовсім.
    • У разі близькості коефіцієнта до -1 спостерігається сильна негативна кореляція, тобто при зростанні x значення y зменшуються.

Поради

  • Завжди будуйте графік з нанесеними на нього точками. В іншому випадку ви можете втратити закономірність, оскільки коефіцієнт лінійної кореляції враховує для передбачення значень y за значеннями x лише пряму лінію.
  • Ось чому багато анкети містять практично повторювані питання, відповіді на які навіюють нудьгу. Укладачі таких анкет знають безліч відомостей про питання x і питанні y окремо, але вони не мають ні найменшого уявлення, як ці питання корелюють, тобто взаємопов`язані один з одним.

Попередження

  • Перед тим як стверджувати, що дві змінні взаємопов`язані, перевірте, чи є значення обчисленого коефіцієнта кореляції статистично значущим. Іншими словами, чи не вийшло дане значення в результаті простого збігу. Наприклад, буває так, що всі точки лягають на одну пряму лінію, коефіцієнт дорівнює +1 або -1, але все одно кореляція виглядає непереконливо. Якщо коефіцієнт кореляції не є статистично значущим, не має сенсу приводити його значення.
  • Якщо кореляція статистично значуща, це все одно не означає, що одна змінна однозначно "залежить" від іншої. Це доводить лише те, що за відомими значеннями змінної x можна з певною часткою ймовірності передбачити відповідні значення y, і навпаки.