Як обчислити коефіцієнт рангової кореляції Спірмена
Коефіцієнт кореляції рангу Спірмена дозволяє визначити, чи існує між двома змінними залежність, що виражається монотонної функцією (тобто при зростанні однієї змінної збільшується і друга, і навпаки). Наведені в статті прості кроки дозволять вам робити розрахунки вручну, а також обчислювати коефіцієнт кореляції за допомогою програм Excel і R.
Кроки
Метод 1 з 3: Обчислення вручну
1
Складіть таблицю даних. Таким чином ви впорядкуйте інформацію, необхідну для розрахунку коефіцієнта кореляції рангу Спірмена. При цьому вам знадобиться:- 6 колонок, озаглавлених так, як показано вище на малюнку.
- Кількість рядків, відповідне числу пар змінних.
2
Заповніть перші дві колонки парами змінних.3
У третій колонці запишіть номери (ранги) пар змінних від 1 до n (Загальна кількість пар). Надайте номер 1 парі з найменшим значенням у першій колонці, 2 - наступному за ним значенням, і так по зростанню величин змінної з першої колонки.4
У четвертій колонці зробіть те ж, що і в третій, але на цей раз пронумеруйте пари змінних по другій колонці таблиці.- Якщо два (або більше) значення змінної в одній колонці однакові, розташуйте їх один за іншим і знайдіть середнє значення їх номерів, потім пронумеруйте їх цим середнім значенням.
У наведеному праворуч прикладі два значення змінної збігаються і дорівнюють 5- в разі нормальної нумерації ці дані отримали б ранги 2 і 3. Оскільки значення однакові, знаходимо середню величину їх рангів. Середнє 2 і 3 одно 2,5, тому обом величинам присвоюємо ранг 2,5.
- Якщо два (або більше) значення змінної в одній колонці однакові, розташуйте їх один за іншим і знайдіть середнє значення їх номерів, потім пронумеруйте їх цим середнім значенням.
5
У колонці "d" обчисліть різницю між двома рангами з попередніх двох колонок. Наприклад, якщо ранг в третій колонці дорівнює 1, а в четвертій - 3, то різниця між ними складе 2. Знак не має значення, оскільки на наступному кроці ці числа будуть зведені в квадрат.6
7
Зведіть кожне значення з колонки "d" в квадрат і запишіть отримані величини в колонку "d".8
Підсумуйте всі значення з колонки "d". Ви визначите суму? D.9
Скористайтеся однією з наступних формул:- Якщо на попередніх кроках не зустрічалося однакових величин, просто підставте отриману суму в спрощену формулу для розрахунку коефіцієнта рангової кореляції Спірмена:
і замість "n" підставте число пар даних, внесених вами раніше в таблицю. - Якщо на попередніх кроках траплялися однакові значення, скористайтеся стандартною формулою для обчислення коефіцієнта рангової кореляції Спірмена:
- Якщо на попередніх кроках не зустрічалося однакових величин, просто підставте отриману суму в спрощену формулу для розрахунку коефіцієнта рангової кореляції Спірмена:
10
Проаналізуйте результат. Отримане значення знаходиться між -1 і 1.- Якщо воно близьке до -1, кореляція негативна.
- Якщо близько до 0, кореляція відсутня.
- Якщо близько до 1, спостерігається позитивна кореляція.
- Не забудьте поділити на суму змінних і взяти корінь. Після цього поділіть на? D.
Метод 2 з 3: Обчислення в Excel
1
Створіть нові колонки з рангами, відповідними колонкам даних. Наприклад, якщо дані внесені в Колонку A2: A11, використовуйте функцію "= RANK (A2, A $ 2: A $ 11)" і занесіть результати для всіх рядків в нову колонку.2
Знайдіть ранги для однакових величин, як описано в кроках 3 і 4 методу 1.3
У новій осередку визначте кореляцію між двома колонками рангів за допомогою функції «= CORREL (C2:C11, D2: D11) ". В даному випадку C і D - це колонки, що містять ранги. Таким чином, в даній комірці ви отримаєте коефіцієнт рангової кореляції Спірмена.
Метод 3 з 3: Обчислення в R
1
Якщо у вас ще немає програми R для обробки статистичних даних, придбайте її (див. https://r-project.org).2
Збережіть дані у форматі CSV, розташувавши їх у двох колонках, кореляцію між якими ви збираєтеся досліджувати. Зберегти файл у даному форматі легко за допомогою опції "Зберегти як".3
Відкрийте редактор R. Якщо ви ще не увійшли до програми R, просто запустіть її. Для цього достатньо натиснути іконку R на робочому столі.4
Наберіть команди:- d <- read.csv("NAME_OF_YOUR_CSV.csv") и нажмите клавишу ввода
- cor (rank (d [, 1]), rank (d [, 2]))
Поради
- Як правило, набір даних повинен складатися не менше ніж з 5 пар для того, щоб можна було достовірно встановити яку-небудь кореляцію (3 пари було використано в прикладі вище для простоти).
Попередження
- Коефіцієнт рангової кореляції Спірмена дозволяє встановити лише те, чи ростуть обидві змінні або зменшуються одночасно. Якщо розкид даних занадто великий, цей коеефіціент НЕ дасть точного значення кореляції.
- Наведена функція дасть вірний результат за відсутності однакових значень у масиві даних. Якщо такі значення існують, як в розглянутому нами прикладі, необхідно використовувати наступне визначення: коефіцієнт кореляції смешенного твори, заснований на ранги.