Сезар Идальго - Как информация управляет миром
Однако сначала необходимо удостовериться в том, что мы одинаково понимаем физическую основу информации и ее неочевидные истоки. Я начну с объяснения того, что представляет собой информация с точки зрения математики и физики. Как мы увидим позднее, это поможет нам понять, почему Больцман и Шеннон пришли к одной и той же формуле. Кроме того, это познакомит нас с основополагающими физическими принципами, которые позволяют информации накапливаться.
Глава 2
Тело бессмысленного
Предположим, что нас попросили распределить по категориям следующие понятия: расстояние, масса, электрическая сила, энтропия, красота, мелодия. Я думаю, что существуют достаточные основания для того, чтобы поместить энтропию рядом с красотой и мелодией, а не с первыми тремя понятиями. Энтропия проявляется только там, где части рассматриваются в связи, и именно просмотр или прослушивание частей в их связи с другими частями позволяет различить красоту и мелодию.
Артур ЭддингтонЧтобы что-нибудь изобрести, необходимо хорошее воображение и куча мусора.
Томас ЭдисонНесколько месяцев назад мне на глаза попалась статья, помещенная на главной странице посвященного бизнесу раздела чилийской газеты. В этой статье говорилось о чилийце, купившем самый дорогой в мире автомобиль. Стоимость машины марки Bugatti Veyron составила более двух с половиной миллионов долларов США, и ее покупка стала одним из самых ярких примеров показного потребления, когда-либо виденных мной.
Поискав в Интернете, я оценил стоимость килограмма веса этого автомобиля, которая составила примерно одну тысячу триста долларов США (или около шестисот долларов США за фунт веса).[15] Для сравнения возьмем стоимость килограмма золота и серебра. В некоторые дни стоимость килограмма чистого серебра составляет около одной тысячи долларов США, а килограмма золота – около пятидесяти тысяч долларов США.[16] Стоимость килограмма веса обычного автомобиля колеблется от десяти (Hyundai Accent) до шестидесяти долларов США (BMW M6). Таким образом, хотя стоимость Bugatti Veyron не превышает стоимости ее весового эквивалента в золоте, она превышает стоимость ее весового эквивалента в серебре, тогда как стоимость автомобиля Hyundai Accent соответствует стоимости его весового эквивалента в бронзе.
Вы, конечно, можете сказать, что сравнивать килограмм веса автомобиля Bugatti и килограмм серебра бессмысленно, поскольку вы мало что можете сделать с килограммом Bugatti. Тем не менее эта бессмыслица может много рассказать нам о том, как физический порядок, или информация, может быть упакована в продукте.
Представьте на секунду, что вы только что выиграли автомобиль Bugatti Veyron в лотерею. В порыве радости вы решили прокатиться на своей новой машине. Из-за своего волнения вы врезаетесь в стену. Вы не получили повреждений, но расстроились, поскольку не успели застраховать свой автомобиль, который уже не подлежит восстановлению. Сколько стоит килограмм Bugatti теперь?
Ответ на этот вопрос совершенно очевиден. Долларовая стоимость автомобиля испарилась за секунды, которые потребовались на то, чтобы разбить его об стену, в то время как его вес остался прежним. Так куда же делась ценность? Долларовая стоимость автомобиля испарилась во время аварии не потому, что в ее результате были уничтожены атомы, из которых состоял автомобиль Bugatti, а из-за того, что авария изменила порядок их расположения. Когда части, из которых состояла машина, были разъединены и деформированы, информация, которая была воплощена в Bugatti, оказалась в значительной степени уничтожена. Другими словами, два с половиной миллиона долларов США стоили не атомы автомобиля, а то, как эти атомы были организованы.[17] Эта организация и представляет собой информацию.[18]
Таким образом, стоимость автомобиля Bugatti определяется физическим порядком, которым и является информация, несмотря на продолжающиеся споры о том, что она собой представляет.[19] Клод Шеннон, отец теории информации, говорил, что информация – это мера минимального объема данных, необходимого для передачи сообщения. То есть это количество битов, требуемое для передачи данных об организации, например о порядке атомов, составляющих автомобиль Bugatti.
Тем не менее для лучшего понимания определения «информация», сформулированного Шенноном, лучше начать с чего-нибудь более простого, чем автомобиль Bugatti. Я буду использовать в качестве примера твит. Твит – это сообщение, состоящее из 140 символов, которое используется на сервисе Twitter. Твит, как и Bugatti, представляет собой небольшой пакет информации, но, в отличие от Bugatti, он создается в качестве акта коммуникации. Тем не менее с точки зрения теории Шеннона это не имеет значения. Согласно Шеннону, информация – это минимальный объем данных для передачи любого сообщения. Будь то твит, состоящий из случайных символов, или самое остроумное сообщение, которое вы когда-либо видели, все это не имеет значения с точки зрения теории информации Шеннона.
Итак, сколько же информации содержится в твите? Чтобы представить содержимое твита в количественном выражении, рассмотрим гипотетическую игру для двух пользователей сервиса Twitter, Эбби и Брайана. В этой игре Эбби и Брайан должны угадать твиты друг друга, используя только вопросы типа «да/ нет». Для игры в эту игру у них есть книга, которая содержит все возможные твиты, которые могут быть написаны. Игра начинается тогда, когда Эбби случайным образом выбирает твит из своей книги. После этого она просит Брайана угадать ее твит, используя только вопросы типа «да/нет». Шеннон учит нас тому, что объем информации, заключенной в твите, равен минимальному количеству вопросов типа «да/нет», необходимых Брайану для того, чтобы угадать твит Эбби со стопроцентной точностью.[20] Однако каково количество этих вопросов?
Для простоты будем считать, что Эбби и Брайан используют «алфавит» из тридцати двух символов: строчных латинских букв и таких дополнительных символов, как пробел (), косая черта (/), запятая (,), точка (.), а также «собака» (@) и решетка (#). Кроме того, будем считать, что у Эбби и Брайана есть таблицы, в которых каждый символ соответствует числу (a = 1, b = 2, […], @ = 31, # = 32).
Лучшим способом угадывания твита Эбби является использование Брайаном каждого вопроса для разделения пространства поиска возможных твитов пополам. Брайан может сделать это, отгадывая сообщение Эбби символ за символом. Если Брайан решит использовать данную стратегию, то его первым вопросом типа «да/нет» будет: «Число, соответствующее первому символу, больше 16?» Если Эбби ответит отрицательно, то Брайан будет знать, что первый символ в твите Эбби расположен между буквами a и p. Имея это в виду, Брайан должен будет задать второй вопрос, который разделяет пополам оставшийся набор символов: «Число, соответствующее первому символу, больше 8?» Если Эбби ответит утвердительно, то Брайан будет знать, что первый символ сообщения Эбби расположен между числами 9 и 16 (то есть между буквами i и p). Теперь вы уже можете догадаться, что следующим вопросом Брайана будет: «Число, соответствующее первому символу, больше 12?»
Каждый заданный вопрос позволяет Брайану сократить количество возможных символов в два раза. Поскольку существует тридцать два возможных символа, Брайану потребуется задать только пять вопросов, чтобы угадать каждый символ (вам нужно разделить 32 на 2 пять раз, чтобы получить только один вариант). Наконец, поскольку твит состоит из 140 символов, Брайану потребуется 140 × 5 = 700 вопросов типа «да/нет», или битов, чтобы угадать сообщение Эбби.[21]
Теория Шеннона говорит, что нам требуется 700 бит, или вопросов типа «да/нет», для передачи твита, написанного с использованием алфавита, включающего тридцать два символа. Кроме того, теория Шеннона является основой современных систем связи. Путем количественного определения числа битов, необходимых для кодирования сообщений, он помог разработать технологии цифровой связи. Тем не менее во время разработки своей формулы Шеннон не знал о том, что его формула была идентична той, которую вывел Больцман почти за полвека до него. Прислушавшись к предложению известного венгерского математика Джона фон Неймана, Шеннон решил назвать свою меру «энтропией», поскольку формула Шеннона была эквивалентна формуле энтропии, используемой в статистической физике. (Кроме того, согласно легенде, фон Нейман сказал Шеннону, что если тот назовет свою меру энтропией, то это гарантирует его победу в любом споре, поскольку никто точно не знает, что такое энтропия.)
Однако интерпретацию понятий «энтропия» и «информация», которые появились в результате работы Шеннона, было трудно примирить с традиционным толкованием слов «информация» и «энтропия», возникшим в работе Больцмана. Конфликт между определением слова «информация», используемым Шенноном, и его разговорным значением, которое широко распространено и сегодня, легко понять, используя в качестве примера компьютеры. Подумайте о своем персональном компьютере. Будь то настольный компьютер, ноутбук или смартфон, вы используете его для хранения фотографий, документов и программного обеспечения. Вы считаете эти фотографии и документы «информацией» и, конечно, хорошо понимаете то, что эта информация хранится на жестком диске вашего устройства. Тем не менее, согласно Шеннону, если бы мы случайным образом перемешали все биты на жестком диске, удалив таким образом все ваши фотографии и документы, мы бы увеличили количество информации на жестком диске. Как это может быть? Дело в том, что определение термина «информация», предложенное Шенноном, учитывает только количество битов, необходимое для передачи сообщения о состоянии системы (в данном случае речь идет о последовательности битов, которые хранятся на вашем жестком диске). Поскольку нам требуется больше битов для создания сообщения о состоянии жесткого диска, полного случайных данных, чем о состоянии жесткого диска с фотографиями и документами, содержащими корреляции, позволяющие сжимать последовательности, определение Шеннона подразумевает то, что после перемешивания битов в случайном порядке на вашем жестком диске станет больше информации. Технически Шеннон прав, говоря о том, что нам необходимо большее количество битов для передачи сообщения о содержимом жесткого диска, наполненного случайными данными, чем о содержимом жесткого диска с фотографиями и документами. Однако теорию информации Шеннона, которая, по сути, представляет собой теорию коммуникативного инжиниринга, следует расширить, чтобы примирить ее с разговорным смыслом слова «информация» и работой Больцмана. В дополнение к работе Шеннона мне сначала нужно будет объяснить определение энтропии, которое возникло из работы Больцмана, а затем вывести определение, которое мы могли бы использовать для описания информационно насыщенных состояний, ассоциирующихся с компьютером, наполненным фотографиями и документами.