Як брехати за допомогою статистики

Як знає кожен небайдужий до деталей людина, статистика - штука підступна, особливо якщо не знати, як саме потрібно її інтерпретувати. Ця стаття навчить вас тому, як обманювати людей за допомогою статистики.

Метод 1 з 3: брешемо за допомогою середньостатистичного

1
Вивчіть термінологію. Словом "середньостатистичний" сьогодні кидаються наліво і направо, тільки-но мова заходить про обговорення чогось, що відноситься до статистики. На перший погляд термін звучить цілком ясно: середньостатистичне - це те, що в середині. Тим не менш, є кілька видів середньостатистичних даних, кожен з яких може бути вельми і вельми оманливий для людини, що не вміє з ним працювати.
- Середнє арифметичне: його ми знаємо зі школи. Складаємо всі цифри, ділимо на кількість цифр - і готово. Приміром, є цифри 3, 3, 5, 4, 7. Середнє арифметичне вираховується так: спершу складемо (22), потім поділимо на 5 (п`ять цифр).
  - Середнє арифметичне дорівнює 4.4
- Медіана: якесь число, яке знаходиться строго в середині вибірки. Якщо взяти той же набір чисел - 3, 3, 5, 4, 7 - то медіаною в його випадку буде 4, так як є 2 числа менше четвірки та два числа більше.
- Мода: це те число, яке найчастіше повторюється у вибірці. Так, в нашому випадку це 3, так як в цьому - 3, 3, 5, 4, 7 - наборі чисел є дві трійки.
2
Коли бреше середнє арифметичне. Може здаватися, що середнє арифметичне брехати не може просто за визначенням, але це тільки здається. Аномальне високі або аномальне низькі дані у вибірці можуть істотно спотворити картину і, власне, саме середнє арифметичне! Щоб брехати з його допомогою, вам потрібно знайти викиди значень даних і скористатися ними.
- Приклад: ви проводите опитування серед 50 домогосподарств у вашому районі. Тема опитування - рівень доходу. Припустимо, всі сусіди отримують дохід у доларах. І всі сусіди заробляють близько 40-60 тисяч доларів на рік. Але один-єдиний сусід примудряється робити в рік 5000000. Самі розумієте, коли ви сядете вираховувати середнє арифметичне по доходу в районі, то цей багатій своїми 5 мільйонами серйозно підніме загальну планку.
- Аналогічно: у 9 ваших сусідів у банку лежить по тисячі доларів, а у десятого - всього один долар. Середнє арифметичне виходить рівним $ 900,10, тобто майже на 10% менше суми вкладу більшої частини людей.
- В ході проведення серйозних опитувань, як правило, найвищі і найнижчі показники відкидаються, тільки потім вираховується середнє арифметичне. На жаль, далеко не кожен опитування, чиї результати ви бачите в ЗМІ, можна назвати серйозним. Якщо у вас немає доступу до даних, отриманих в ході опитування, або якщо немає письмової заяви про те, що в ході аналізу даних були відкинуті екстремуми, то вірити такому опитуванням ... не варто.
3
Коли бреше медіана. Відверто кажучи, тут брехати найскладніше, що й зрозуміло - медіана суть середина, вона не може бути занадто великий або маленькою. Вона просто повинна бути в середині ... тим не менш, з її допомогою можна ховати дуже великі або дуже маленькі дані. Наприклад, у нас є набір наступних цифр: 1, 1, 2, 3, 4, 5, 3000. Медіана тут - 3.
- Коли у вас парна кількість даних, медіану можна знайти, якщо знайти середнє арифметичне двох даних, що опинилися в середині вибірки. Втім, це не варіант у разі різких викидів показників.
- Не варто сліпо довіряти звітам про зміну результатів після часу, якщо оні зміни описуються медианами. Якщо якась компанія заявляє, що медіанний зростання цін на її послуги склав 3% на рік, то це може означати, що цього року компанія підвищила ціни на всі 20% і тепер просто намагається це приховати за даними минулих років.
4
Коли бреше мода. У ряді випадків, і це об`єктивно, моди брехати не можуть. Наприклад, коли мова заходить про те, скільки в середньому було куплено однією людиною квитків на спортивний матч, то тут фальсифікувати просто нічого. Тим не менш, моди теж можуть спотворювати дійсність, особливо коли мова заходить про невеликі вибірках.
- Наприклад, у нашій вибірці є всі цифри від 1 до 100, але "1" повторюється 3 рази. Відповідно, 1 буде модою за вибіркою, хоча середнє арифметичне буде набагато ближче до 50.
- Будь опитування, що пропонує оцінити щось по широкій шкалі, може за допомогою моди спотворити дійсність. Наприклад, якщо опитано 100 респондентів, кожному з яких пропонувалося оцінити що завгодно за шкалою від 1 до 10, і якщо люди оцінювали на "10" частіше, ніж ставили інші оцінки (навіть якщо десяток всього на одну більше, ніж, приміром, одиниць ), то можна сміливо заявити, що середня мода по вибірці дорівнює 10.
5
Коли брешуть репрезентативні дані. Якщо у вас є вибірка, наповнена швидше абстрактними, а не конкретними даними (наприклад, опитування клієнтської задоволеності), то брехати в такому випадку стає до жаху просто. Наприклад, якщо запропонувати респондентам оцінити їх задоволеність від роботи з компанією за шкалою від 1 до 3, то це зовсім не означає, що ті, хто поставить 3, будуть в 3 рази задоволена тих, хто поставить 1. За такою схемою часто брешуть із середнім арифметичним, трохи рідше - з медианами, ще рідше - з модами.

Метод 2 з 3: брешемо за допомогою вибірок (наборів даних)

1
Використовуємо невелику вибірку. Будь-яка людина, що розуміє в статистиці, може сказати вам, що єдиний спосіб достовірно щось виявити або дізнатися в ході опитування полягає в тому, щоб опитати якомога більше самих різних респондентів. Якщо вам вдасться опитати 100 чоловік - це добре, якщо 10000 - то ще краще. Чим більше даних у вас на вході, тим вища ймовірність того, що ви знайдете найбільш наближені до справжніх середнім значення. Відповідно, вірно і зворотне - чим менше даних на вході, тим условнее результати опитування.
- Наприклад, ви дізналися, що недавно двоє людей отримали травми по дурості ... наприклад, струсу мозку через удар подушками. Якщо опитати тільки двох цих людей, то можна дізнатися, що подушки - смертельно небезпечні! І адже вийде, що так і є! Більше того, до тих пір, поки ви не визнаєте, що опитали всього 2, а не 2000, то ніхто так і не зможе оскаржити вашу заяву.
2
Використовуємо керовану вибірку. Найточніше виходять дані, отримані в ході не тільки великих опитувань, але ще й таких, у яких був широке охоплення респондентів. Грубо кажучи, геолог, що описує типи мінералів в пустелі, опише їх куди точніше, якщо об`їздить всю пустелю і збере всюди по камушку, ніж якщо влаштує в одне місці розкопки і нариє 1000 кругляків. Відповідно, якщо ви обмежите охоплення респондентів опитування, то зможете отримати зовсім інші дані ...
- Часом, як не дивно, це навіть служить благим цілям. Наприклад, коли дослідження використовує демографічні дані, то опитувати можуть не всіх підряд, а строго тих, хто представляє інтерес для дослідження (білі чоловіки старше 40 і без роботи, наприклад). І до тих самих пір, поки про це згадується в роботі, де наведено посилання на сам опитування, то це нормально, допустимо і доречно.
- Дані, одержувані в ході невеликих університетських досліджень, особливо сильно грішать тим, що базуються на керованої вибірці. Втім, тому є причина: мало у кого із студентів є час і кошти для того, щоб влаштувати по-справжньому серйозний опитування. Тим не менш, до тих пір, поки в роботі чітко вказано, що опитування проводилося серед тих-то і там-то - це нормально. На жаль, ЗМІ рідко діляться зі своїми читачами такими нудними подробицями, воліючи замість цього бити наповал хльосткими заголовками з претензією на глобальність.
3
Використовуємо незбалансовану добірку. Це, мабуть, саме хитре і підступне, що ви можете зробити. Незбалансована добірка допоможе збрехати навіть у тому випадку, коли читач має доступ до безлічі деталей і подробиць. Суть в тому, щоб використовувати дані, які не можна порівнювати і зіставляти між собою. Зрозуміло, використання цих даних проводиться з виглядом, ніби так і треба, ніби все гаразд. Наочний приклад: є два міста. В одному живе 100 тисяч осіб, і за 10 років був приріст в 10 тисяч жителів. В іншому живуть 10 осіб, і за 10 років був приріст в 10 жителів. А тепер давайте порівняємо те, що порівнювати не можна - швидкість приросту жителів ... у відсотках. Десять відсотків проти ста - яке?
- Цей прийом деколи використовується при аналізі ринкових даних для фальсифікації даних про продажі. Наприклад, ви відстежуєте продажу яблук і апельсинів. Десь на середині дослідження з`ясовується, що апельсини скінчилися - на склад не завезли, на прилавки класти нічого. Якщо продовжувати порівнювати дані і далі, то виявиться, що на певному етапі яблука стали в рази популярнішою апельсинів, які чомусь раптом взагалі не продавалися. А адже виною всьому лише те, що на прилавках тільки яблука і залишилися.

Метод 3 з 3: брешемо за допомогою графіків

1
Залиште вісь У порожній. Немає більш наочного подання даних, ніж його Величність Графік. Тим не менш, маніпулювати можна і ними. А все тому, що люди частіше дивляться на фігуру графіка, а не на осі і їх значення. Найпростіше збрехати за допомогою статистики і графіків - залишити вісь У порожній.
- Якщо на осі Х у вас 5 стовпців, але немає даних про те, наскільки саме вони вищі один одного, то ніхто не зможе точно дізнатися, як же насправді вони відрізняються один від одного.
2
Використовуйте на осі У дуже великі чи маленькі дані. Припустимо, ваші дані укладаються в діапазон від 1 до 50. Щоб приховати відмінності, ви можете збільшити вісь У так, щоб одиницею виміру на ній була, скажімо, 100: 100, 200, 300 і так далі. Самі розумієте, що в масштабі десятків різниця між "3" і "10" дуже велика. На жаль, на графіку, побудованому в масштабі сотень, її навряд чи хтось помітить.
3
Почніть вісь У не з початку. Якщо ваші дані укладаються в діапазон від 11 до 51, то меншу кордон можна показати ще менше, а більшу - ще більше. Для цього в нашому випадку потрібно всього лише точкою відліку по осі У поставити число "10". Відповідно, "11" буде вже трохи вище осі Х. І це навряд чи викличе у когось підозру ... ну, крім самих допитливих, зрозуміло, що не полінуються придивитися і виявлять, що графік починається з 10, а не з 0.
- Відмітка "51" стає на такому графіку в 50 разів вище позначки "11", так як менша відмітка дорівнює всього лише одиниці. Якби графік починався з нуля, то відмітка "51" була б всього в майже 5 раз вище позначки "11".
4
Використовуйте неточний масштаб. Всякий раз, коли ви натикаєтеся на коментар »не масштабувати", є привід задуматися. Далеко не завжди неправильний масштаб використовується зловмисно, часом просто вхідні дані такі, що адекватно відобразити їх на одній стандартній сторінці просто неможливо. Тим не менш, деколи це таки використовують і з метою обману.
- Наприклад, візуальне представлення розміру може бути витягнуте в висоту, але не в ширину, через що об`єкт буде здаватися вище і тонше, ніж він є насправді.
5
Використання графіка в цілях пропуску даних. Таке часто використовується в широких опитуваннях, що поділяють отримані дані на категорії. Наприклад, графік, показують, який газований напій є найпопулярнішим в тому чи іншому штаті США. На перший погляд, ніби все дуже деталізовано. А ось на другий погляд вже можуть з`явитися питання - а наскільки широка була вибірка, які були використані порогові значення, на основі взагалі чого - середнього арифметичного, медіани або моди - побудований графік?
- Якщо ви збиралися використовувати тільки один результат з кожної опитаної області, а від всіх інших позбутися, ви можете легко контролювати отримані дані, не вдаючись навіть до більш тонких маніпуляцій. Знову ж таки, чим менше конкретних даних, тим складніше оцінити якість отриманих результатів.

Поради

Сумніваєтеся? Перевіряйте. Якщо ви не можете отримати чіткі, конкретні дані про розмір, цілі та методи вибірки, що стоять за статистичними даними, щось не довіряйте їм.

Попередження

Якщо ви знаєте, як саме можна використовувати статистику, щоб прибрехати, то складнощів у вас не виникне - окрім, само собою, складнощів етичного характеру. Використовуйте ваше знання не на шкоду людям!

Як брехати за допомогою статистики

Кроки

Метод 1 з 3: брешемо за допомогою середньостатистичного

Метод 2 з 3: брешемо за допомогою вибірок (наборів даних)

Метод 3 з 3: брешемо за допомогою графіків

Поради

Попередження

ЧИТАЙТЕ ПО ТЕМІ

Не пропустіть головного: