Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Сноу записал: «Вывод моего исследования заключается в том, что в этой части Лондона отсутствует вспышка холеры или видимое присутствие заболевания за исключением тех, кто брал воду в упомянутом источнике». Эта простая фраза позднее изменила систему здравоохранения во всем мире.
7 сентября, когда эпидемия все еще не стихла, Сноу добился созыва срочного совещания с местными властями и сообщил им о своем открытии. Он не только выступил с речью, но и представил карту района, на которой отметил численность и место жительства умерших. Карта оказалась настолько убедительной, что уже на следующий день колонка была закрыта. Число умерших резко сократилось, и через некоторое время эпидемия остановилась.
Сила графиков
Оригинал карты, составленной Сноу, хранится в Британском музее. В 1855 году улучшенная версия карты была включена в отредактированную статью Сноу, написанную в 1849 году. Фрагмент этой карты приведен на следующей странице. Современному читателю сложно понять, насколько передовым был тогда такой способ представления данных, ведь сегодня он используется повсеместно.
Фрагмент карты района Сохо, где в 1854 году разразилась эпидемия холеры. Источник питьевой воды на улице Броуд обозначен словом PUMP в центре карты. Горизонтальные линии обозначают число умерших в каждом доме.
Умершие от холеры обозначены параллельными отрезками. При нанесении этих обозначений на обычную карту рядом с каждым домом сразу же становится понятно, где располагался очаг эпидемии. Очевидно, что большинство смертельных исходов зафиксировано рядом с источником питьевой воды (pump) на улице Броуд в центральной части карты. Если прибавить к этому скрупулезный труд Сноу по сбору информации, то связь эпидемии с источником питьевой воды не требует дополнительных подтверждений в виде какой-то конкретной теории. Именно так посчитали местные власти и приняли решение закрыть колонку. Очаг заболевания угас, что и стало доказательством того, что холера передается через зараженную воду.
Эксперименты, проведенные Луи Пастером в период с 1860 по 1864 год, сыграли ключевую роль в формировании теории патогенов и позволили дать теоретическое объяснение наблюдениям Сноу постфактум. В 1885 году немецкий ученый Роберт Кох установил, что возбудителем холеры является бактерия Vibrio cholerae, и уже в конце века системы водоснабжения большей части крупных европейских городов были заменены. Призрак холеры перестал угрожать половине мира.
Резюмируем данные (1): показатели центра распределенияОписать подозреваемого в преступлении так, чтобы другие смогли гарантированно опознать его, — непростая задача, если только у подозреваемого нет какой-то отличительной черты. Однако эксперты полиции знают, на что следует обращать внимание и какие эпитеты нужно использовать при описании преступника, чтобы другой человек мог себе его представить. Они также знают, как нужно составить фоторобот преступника, чтобы его было легче опознать.
Чем-то подобным занимается и статистика. Чтобы обобщить обширное множество данных, рассчитывается несколько показателей (их может быть, например, пять или шесть), которые содержат больше всего информации и помогают получить достаточно точное представление обо всех данных в целом. Эти показатели обычно делятся на три группы: показатели центра распределения, показатели вариации и квантили. В этом разделе мы расскажем о показателях первой группы, которые указывают, в окрестности каких значений располагаются данные.
Среднее арифметическое
Мы все рассчитывали свой средний балл, когда учились в школе или институте. Например, баллы выставляются по шкале от 0 до 10, итоговый балл рассчитывается как средний балл трех промежуточных экзаменов, а пороговая оценка равна 5. Оценки 3, 2 и 6 на промежуточных экзаменах означают, что вы не сдали экзамен; оценки 4, 4 и 7 означают успешную сдачу (а как быть, если вы получили 4, 4,3 и 6,3?).
Среднее арифметическое — это один из наиболее распространенных показателей центра распределения. Эта величина используется весьма широко благодаря своим особым свойствам и простоте расчетов. Она также демонстрирует нетривиальные свойства при некоторых расчетах. Попробуем, к примеру, найти среднее арифметическое средних арифметических. Среднее арифметическое (3, 4, 3) равно 4, среднее арифметическое (4, 6) равно 5, но среднее арифметическое всех этих чисел равно 4,4, а не среднему значению средних арифметических (4 + 5)/2 = 4,5. Как правило, если дано множество из n1 значений со средним арифметическим и второе x¯1 множество из n2 значений со средним арифметическим x¯2, то средним арифметическим значений множества из (n1 + n2) значений будет
Эта формула эквивалентна формуле расчета среднего для всех значений, так как если выборка содержит n элементов, среднее значение которых равно х¯, их сумма будет равна nх¯. Таким образом, числитель общего среднего арифметического равен сумме всех элементов выборки, а знаменатель — общему числу элементов выборки.
Рассмотрим пример. Если средний возраст сотрудников-мужчин в компании равен 36 годам, а средний возраст женщин — 32 годам, то каков средний возраст всех сотрудников? Ответ зависит от конкретной численности мужчин и женщин. Если половина сотрудников — мужчины, а половина — женщины, то средний возраст будет равняться 34 годам. Если 73 % сотрудников — мужчины, а 23 % — женщины, то средний возраст будет равен 35 годам. Заметим, что доля мужчин и женщин рассчитывается по следующим формулам: p1 = n1(n1 + n2) и р2 = n2(n1 + n2), поэтому первую формулу можно записать в следующем виде: x¯t = р1x¯1 + р2x¯2.
В некоторых случаях среднее арифметическое является не самой подходящей величиной. Если мы хотим обобщить данные о сроках доставки товара или о времени поезда в пути, среднее арифметическое не даст нам полезной информации. Может быть так, что по договору срок поставки должен составлять 10 дней, при этом в половине случаев товар доставляется за два дня, что становится неожиданностью для заказчика (на складе может не быть места для товара, к примеру), а в другой половине — за 18 (заказчик уже потерял надежду получить товар). Хотя в среднем сроки поставок соблюдаются идеально точно, означает ли это, что в компании все в порядке?
Аналогичная ситуация может произойти и в примере с поездом. Если в половине случаев мы будем приезжать на работу на полчаса раньше, это не компенсирует получасовых опозданий во второй половине случаев, особенно если в офис нельзя попасть до начала рабочего дня. В этих примерах наиболее информативной величиной будет процент опозданий или процент случаев, когда поезд опаздывает больше чем на определенное время.
Еще один недостаток среднего арифметического — сильная зависимость от крайних значений. Разумеется, странно, что число ног у большинства людей выше среднего, но это на самом деле так: у некоторых людей всего одна нога или нет ни одной (крайние значения), из-за чего среднее число ног у людей чуть меньше двух.
Медиана
Медиана — это значение, которое будет располагаться точно в центре, если мы упорядочим значения в порядке возрастания. Если даны значения 6, 7, 5, 2 и 9, их медиана равна 6 — именно это значение расположено в центре упорядоченного ряда из этих чисел. Если число элементов четно, медиана рассчитывается как среднее арифметическое двух центральных элементов. Свойства медианы частично компенсируют недостатки среднего арифметического. Кроме того, она меньше подвержена воздействию крайних значений. К примеру, среднее арифметическое вышеприведенных чисел равно 5,8, медиана — 6. Если при вводе этих чисел в компьютер мы вместо 9 случайно укажем 99, среднее арифметическое станет равно 23,8, а медиана будет по-прежнему равна 6.
Еще одним преимуществом медианы по сравнению со средним арифметическим является тот факт, что по определению ровно 50 % значений будут меньше медианы, оставшиеся 50 % — больше. Если, например, мы хотим узнать, входим ли мы в число наиболее высокооплачиваемых сотрудников, нужно сравнить нашу зарплату именно с медианой. Рассмотрим 10 сотрудников с зарплатами 0,8; 0,8; 0,9; 0,9; 1,0; 1,0; 1,1; 1,1; 1,2 и 10 тысяч евро. Все сотрудники, за исключением одного (90 % от общего числа), получают зарплату меньше средней, которая равна 1,88 тысяч евро. С медианой подобное невозможно: если наша зарплата больше медианы, мы гарантированно входим в 50 % наиболее высокооплачиваемых сотрудников.