Як обчислити викиди

Викид - значення величин, що різко відрізняються від інших в зібраному наборі даних. Цей термін використовується в статистичних дослідженнях. Він може вказувати на аномалії в розподілі даних або на помилки при вимірах. Обчислення викидів необхідно для забезпечення правильної обробки даних, що призведе до більш точних висновків. Існує досить простий процес для обчислення викидів в даній серії спостережень.

Кроки

  1. 1

    Навчіться розпізнавати потенційний викид. Перед розрахунком, чи є дане значення різко виділяється чи ні, корисно вивчити набір даних і вибрати потенційні викиди. Наприклад, розглянемо набір даних, який представляє температури 12 різних об`єктів в кімнаті. Якщо 11 об`єктів мають температуру приблизно 70 градусів за Фаренгейтом (21 градус за Цельсієм), але дванадцятий об`єкт (можливо, піч) має температуру 300 градусів за Фаренгейтом (150 градусів Цельсія), то швидкий перегляд значень може показати, що піч є ймовірним викидом.

  2. 2

    Впорядкуйте дані по зростанню. Продовжуючи наведений вище приклад, розглянемо наступний набір даних, який представляє температури кількох об`єктів: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Цей набір повинен бути впорядкований таким чином: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.

  3. 3

    Обчислити медіану набору даних. Медіана набору даних - величина, що знаходиться в середині набору даних. Якщо набір даних містить парне число величин, то з 2х середніх величин потрібно знайти середнє арифметичне. У наведеному вище прикладі, середні 2 величини - це 70 і 71, так що медіана = ((70 + 71) / 2) = 70,5.




  4. 4

    Розрахуйте нижню чверть. Ця така величина, що позначається як Q1, нижче якої лежить 25% з набору даних. У наведеному вище прикладі, два величини повинні бути знову усереднені: 70 і 70. Їх середнім арифметичним є ((70 + 70) / 2) = 70.550px]]

  5. 5

    Розрахувати верхню чверть. Ця така величина, що позначається як Q3, вище якої лежить 25% з набору даних. У наведеному вище прикладі, усереднюються два величини: 71 і 72 і знаходимо, що Q2 = 71.5.

  6. 6

    Знайдіть "внутрішні кордони" для набору даних. Спочатку помножте різницю між Q1 і Q3 на 1,5. У наведеному вище прикладі: (71,5 - 70) * 1,5 = 2,25. Потім додайте це значення до Q3 і віднімете його з Q1 - це і будуть значення внутрішніх кордонів. Внутрішні кордони в нашому прикладі = 67,75 і 73,75.


    • Будь-які значення даних, що лежать поза межами цього діапазону вважаються незначними викидами. У нашому прикладі тільки температура печі - 300 градусів - вважається незначним викидом.

  7. 7

    Знайдіть "зовнішні кордони" для набору даних. Це робиться таким же чином, як для внутрішніх кордонів, за винятком того, що різниця чвертей множиться на 3 замість 1,5. Множачи різницю чвертей на 3, отримаємо: (1,5 * 3) = 4,5. Отже, зовнішні кордони = 65,5 і 76.
    • Будь-які значення даних, які лежать за межами зовнішніх кордонів вважаються значними викидами. У нашому прикладі температура печі - 300 градусів - також вважається значним викидом.

Поради

  • Коли викиди знайдені, спробуйте пояснити їх наявність до того, як виключити їх з набору даних. Вони можуть вказувати на помилки вимірювання або аномалії в розподілі.

Що вам знадобиться

  • Калькулятор