Искусство большего. Как математика создала цивилизацию - Майкл Брукс
Рождение бита
Первый элемент статьи Шеннона – идея о том, что информацию можно моделировать на основе статистического подхода. Шеннон отмечает, что одни комбинации слов более вероятны, чем другие: например, вы вряд ли ожидаете, что после слова “стол” я поставлю слово “депресняк”. Мы воплотили это в умной (но далеко не безупречной) технологии интеллектуального ввода текста на наших телефонах, но именно Шеннон первым продемонстрировал, что благодаря этому у нас появляется возможность для более эффективной коммуникации. По сути, это позволяет “сжимать” многие формы коммуникации. Например, мы можем отказаться от передачи некоторых фрагментов информации, поскольку человек, выступающий получателем, сумеет без труда их восстановить. Английский язык прекрасно подходит для этой задачи: его гласные часто избыточны. Как Шеннон отметил в статье для “Британской энциклопедии”, MST PPL HV LTTL DFFCLTY N RDNG THS SNTNC[215].
Второй элемент – идея об информационной энтропии. Шеннон зацепился за возможность оцифровки сигнала с целью сведения его к последовательности поддающихся манипуляции чисел. Он также нашел способ количественного представления информации, содержащейся в сигнале, что интересовало и Тьюринга. Тьюринг назвал единицу информации “бан”, но Шеннон выбрал вариант, предложенный коллегой в конце 1946 года, когда они обменивались идеями за обедом. Двоичная единица не может называться “баном”, “биджитом” или “бинитом”, сказал Джон Тьюки. “Разве не очевидно, что ее нужно назвать бит?”[216]
Но как понять, сколько у вас битов? Здесь Шеннон оттолкнулся от малоизвестной работы инженера Ральфа Хартли. Хартли более десяти лет проработал в Western Electric Company над телеграфной и голосовой передачей и после этого в 1928 году опубликовал примечательную статью “Передача информации”[217]. Он понял, что информацию можно представлять количественно, на каком бы языке и посредством какой бы технологии ни происходила передача, если понять, какие решения лежат в ее основе. Подбрасывая монетку, вы совершаете выбор. Говоря с кем-нибудь по-английски, вы много раз выбираете слова английского языка. Если вы хотите написать английское слово из трех букв, вам придется три раза сделать выбор из 26 вариантов. Зная диапазон вариантов, отметил Хартли, можно получить меру информации, необходимой для осуществления связи. Он добавил, однако, что такой показатель не будет непосредственным. Работая с алфавитом, вы выбираете из 17 576 (26 × 26 × 26) вариантов. Хартли, впрочем, подчеркнул, что в трехбуквенном слове не содержится столько информации. Он предложил определять объем информации – сколько раз нужно сделать бинарный (да/нет) выбор – с помощью логарифма (по основанию 2) от общего числа вариантов.
Логарифм по основанию 2 от 17 576 равен 14,1. Это значит, что для передачи английского трехбуквенного слова нам нужно сделать выбор не более 15 раз. Иными словами, размер сообщения составляет 15 бит.
Глядя на биты, можно увидеть, как происходит взаимодействие между ними. Один бит дает нам только два варианта: 0 или 1. Два бита дают четыре варианта: 00, 01, 10, 11. Три бита дают восемь вариантов: 000, 001, 010, 011, 100, 101, 110, 111.
Четыре бита дают 16 вариантов. Можно также повернуть счет с ног на голову и сказать, что в процессе выбора одного из 16 одинаково вероятных сообщений задействуется четыре бита информации. Здесь наблюдается логарифмическая связь: 4 – это логарифм по основанию 2 от 16.
В общем виде правило таково: при наличии C одинаково вероятных вариантов вероятность выбора каждого сообщения равна 1/С. Информация, участвующая в процессе выбора, – это логарифм по основанию 2 от 1/С. Если некоторые сообщения (или некоторые слова в языке) используются чаще других, формула становится немного сложнее. Сначала вероятность первого варианта умножается на –1, а затем полученный результат умножается на логарифм от этой вероятности. После этого такая же операция производится со вторым вариантом и так далее. Когда варианты закончатся, результаты складываются и получается информационное содержание – энтропия Шеннона.
Чтобы проиллюстрировать это, вернемся к примеру с подбрасыванием правильной монеты. Оба исхода – орел и решка – имеют одинаковую вероятность: 1 к 2, или 0,5. Логарифм по основанию 2 от 0,5 равен –1. Для варианта “орел” умножим его на 0,5 и на –1. Затем поступим так же с вариантом “решка”. Сложим результаты. Это даст нам 1 бит энтропии Шеннона – объем информации, заключенной в подбрасывании монеты.
В другой части своей статьи Шеннон обратился к иному наблюдению Хартли: о том, что значение имеет и канал связи. Если канал позволяет использовать широкий диапазон частот – например, если он “широкополосный”, – в сообщении получится уместить больше деталей, а следовательно, у вас будет больше вариантов, что позволит вам передать больший объем информации за отведенное время. На основе этого Шеннон вывел математику “пропускной способности канала”. Он показал, что можно охарактеризовать используемый для передачи информации канал, назвав максимальное число битов, которые можно гарантированно загружать в него (и считывать с него) каждую секунду. Приведу пример (хотя и упрощенный): пропускная способность С зависит от мощности сигнала S, мощности неконтролируемых проблемных помех N и диапазона частот сигнала, пропускаемых каналом, W (это называется полосой пропускания). Опишем их взаимосвязь на языке математики:
Пропускная способность канала измеряется в битах в секунду – а лучше, конечно, в миллионах бит (мегабитах) в секунду, если измерять приходится пропускную способность вашего интернет-соединения. Именно поэтому широкополосный доступ в интернет лучше старой технологии доступа через телефонный модем: он создает более широкую полосу пропускания и увеличивает W в приведенном уравнении. Когда вы находитесь далеко от источника данных, мощность сигнала S падает, что уменьшает C – иногда настолько, что данные передаются очень медленно, и возникает буферизация. Если на вашей интернет-линии много помех, N растет и уменьшает C еще сильнее. Большинство из нас каждый день сталкивается с этим, сидя в интернете с телефонов, планшетов и компьютеров. Пожалуй, пропускная способность, описанная Шенноном, касается лично нас в большей степени, чем любое из предыдущих поколений.
Четвертый важный вклад в