Вероятности и неприятности. Математика повседневной жизни - Сергей Борисович Самойленко
Глава 5. Закон арбузной корки и нормальность ненормальности
Глядя новости или читая комментарии к ним, мы порой недоумеваем: «Есть в этом мире нормальные люди?!» Вроде должны быть, ведь нас много и в среднем мы наверняка нормальны. Но при этом мудрецы говорят, что каждый из нас уникален. А подростки уверены, что они-то уж точно отличаются от серой массы «нормальных людей» и ни на кого не похожи.
Небольшое отступление о том, что такое «в среднем». Часто можно услышать шутливые фразы о «средней температуре по больнице» или «средней зарплате», не отражающей действительное распределение. В статистике встречаются несколько разных средних. Чаще всего применяются три вида — выборочное среднее (или просто среднее), выборочная медиана и мода.
Пусть у нас есть выборка X = (x1,…,xn). Тогда выборочное среднее — обычное среднее арифметическое (x1+…+xn)/n. Когда мы говорим о среднем росте или средней оценке в школе, обычно подразумеваем именно это.
Однако бывают случаи, когда выборочное среднее не отражает «нужную среднесть». Представьте, что вы считаете средний доход в городе. Если там живет Билл Гейтс, то вы получите завышенный результат с точки зрения любой практической задачи. Для исправления ситуации можно использовать, например, медиану.
Возьмем ту же выборку и упорядочим числа по возрастанию: x(1)≤x(2)≤…≤x(n). Такое представление называется вариационным рядом. Здесь x(1) — наименьшее число в выборке, x(2) — второе по величине и т. д. Выборочная медиана — среднее по номеру число в вариационном ряду. Если в нем нечетное число элементов (n = 2k + 1), то медиана — элемент x(k+1), а если четное (n = 2k), то медианой обычно считают полусумму двух средних элементов вариационного ряда (x(k) + x(k+1))/2. Иными словами, медиана — такое число, справа и слева от которого в вариационном ряду поровну элементов. Для оценки дохода (а также во всех иных случаях, когда в выборке могут быть значительные выбросы вверх и вниз) медиана подходит гораздо лучше: если в выборку добавить большое (или маленькое) число, то среднее арифметическое изменится сильно, а медиана гораздо слабее.
Наконец, мода — просто самое частое значение в нашей выборке. Приведем простой пример. Представим себе маленькую компанию, в которой работают пять человек. Директор получает 200 тысяч рублей, его заместитель — 100 тысяч, бухгалтер — 50 тысяч, а два рядовых работника — по 20 тысяч. Тогда выборочное среднее (200 000 + 100 000 + 50 000 + 20 000 + 20 000) / 5 = 78 000. Медиана — 50 000 (есть две зарплаты больше этого числа и две меньше). Мода — 20 000 (это значение встречается два раза — чаще других вариантов). Если компания будет зазывать новых работников и утверждать, что средняя зарплата в ней равна 78 000, то это будет формально верно, а на деле надувательство. Здесь нужно ориентироваться на моду: раз вас зовут, то, надо думать, рядовыми работниками, а не директорами.
В этой главе мы поговорим о средних значениях и их репрезентативности. До сих пор мы рассматривали одномерные распределения — распределения в одномерном пространстве исходов. Но жизнь многогранна и уж точно не одномерна! А при добавлении дополнительных размерностей порой происходят весьма неожиданные события.
Начнем с многомерного арбуза
Одна из особенностей многомерной геометрии — увеличение доли пограничных значений в ограниченном объеме. Вот что имеется в виду. Рассмотрим классическую задачу об арбузе в пространствах с различной размерностью и зададимся целью выяснить, сколько чудесной сахарной мякоти нам достанется от этого огромного, крепкого и аппетитного арбуза, если, надрезав его, мы выяснили, что толщина его корки не превышает 15 % от его радиуса? Кажется, что это многовато, но посмотрите на рис. 5.1: пожалуй, арбуз с такими пропорциями мы сочтем вполне приемлемым. Рассмотрим сначала одномерный арбуз, в виде розового столбика. Его корка представляет собой два маленьких белых отрезочка по краям, ее суммарная длина будет мерой (обобщенным объемом) в одномерном мире и составит 15 % от общей меры арбуза. У двумерного, блинообразного арбуза мера корки в виде площади белого кольца будет меньше, чем внутренняя часть, уже всего в три раза. В привычном нам трехмерном мире такая корка составит почти 40 % общего объема. Чувствуете подвох?
Рис. 5.1. Задача об арбузе
Такую возрастающую роль границ мы уже встречали, когда рассматривали туристический закон подлости. Но тогда мы ограничились двумерным случаем, вполне естественным для топографических карт. Сейчас мы пойдем дальше.
Для шара, как, впрочем, и для тела произвольной формы, можно точно вычислить зависимость доли корки от общего объема тела. Ее легко получить и обобщить на произвольно многомерные пространства, вновь воспользовавшись анализом размерности и общим понятием меры. Для сплошного тела в пространстве размерности m его мера, или обобщенный объем, пропорциональна степенной функции от характерного размера тела d:
V ∝ dm.
Под знаком пропорциональности здесь скрывается константа, которая называется формфактором. Она зависит от формы тела и размерности пространства, но не зависит от размеров: для куба она равна 1, для шара того же размера выражается сложнее — через гамма-функцию: πm/2/Γ(m/2+1), которая для целых аргументов сводится к факториалу числа (Γ(n+1) = n!) и т. д. Ни конкретная форма, ни этот коэффициент для анализа нам не нужны. Под сплошным я понимаю тело, не относящееся к фрактальным. Такие объекты отличаются от сплошных именно тем, что их обобщенный объем пропорционален их размеру в некоторой дробной степени, отличной от размерности вмещающего пространства. С примерами фрактальных