Питер Эткинз - Десять великих идей науки. Как устроен наш мир.
Молекула ДНК есть хранилище информации, по существу представляющей собой послание, передаваемое через поколения. Это послание содержит всю информацию, необходимую для конструирования и поддержания организма, в котором оно обитает. Возникают очевидные вопросы: что это за информация, как она кодируется, как она интерпретируется?
Рабочими пчелами в улье из клеток-ячеек, который представляет собой живой организм, являются белки. Белки могут быть структурными, как в мускулах, хрящах, копытах, когтях и волосах, или могут быть функциональными, как в гемоглобине и бесчисленных ферментах, контролирующих процессы, образующие состояние «быть живым». Спецификация белков есть центральная функция наследственности, так что мы можем быть уверенными, что ДНК есть некий вид проекта или рецепта наших белков. Это подтверждено экспериментально, поскольку изменения ДНК влекут изменения белков. Чаще всего такие изменения приводят к плохому функционированию белков, которое мы называем болезнью. Но иногда они благоприятны, и в этом случае болезнь получает повышение до статуса эволюции.
Как мы уже упоминали, белки представляют собой нити маленьких молекул, называемых «аминокислотами» и имеющих базовую структуру, показанную на рис. 2.10. Более формально мы говорим, что белок есть полипептид, и типичные белки являются полипептидами, состоящими примерно из ста единиц аминокислот (в структурных белках это число может достигать тысяч). Полная экипировка человеческого тела, около 30 тысяч различных белков, сконструирована ровно из двадцати аминокислот, так что молекула ДНК должна определять последовательность, в которой эти двадцать аминокислот связываются вместе. Между прочим, здесь может найтись место для усовершенствований. Хотя организмы построены из этих двадцати компонент, существует бесконечное количество других аминокислот, и если бы Природа захотела расширить свой репертуар (как, возможно, она уже сделала на других планетах), она могла бы расчистить место для других аминокислот. Жизнь на других планетах вполне может быть построена из иных аминокислот, и нам придется быть осторожными в еде, когда мы туда попадем. Природа и в самом деле готовится к экспансии на Земле, поскольку двадцать первая аминокислота, селеноцистеин, в которой атом селена замещает атом меди, вдруг оказалась необходимой для некоторых ферментов, помогающих защищать клетки от наиболее опасного элемента, кислорода. Если бы вы прочли об этом, находясь на севере Центрального Китая, вы могли бы встревожиться, поскольку почва там содержит необычно мало селена, и вы рискуете получить синдром Кашина-Бека, который проявляется в проблемах с мускулами.
Рис. 2.10. Белок строится из аминокислот, каждая из которых имеет структуру, изображенную слева на этой иллюстрации. Серый эллипс различен для разных случаев, но все аминокислоты, фигурирующие в биологии, имеют общую схему. Когда две аминокислоты связываются вместе, атом углерода в группе -COOH (в правой части молекулы) прикрепляется к атому азота (в левой части молекулы). Множество аминокислот соединяются вместе так, чтобы образовать длинную цепь, как показывает структура справа. Вообще такая цепь называется полипептидом, а цепь из двух связанных аминокислот — дипептидом. Группа -CONH-, отмеченная затененной плоскостью в цепи, является пептидной связью. Мы говорим, что один пептидный «радикал» (остаток молекулы аминокислоты) связан с другим радикалом пептидной связью. Длинная цепь обычно скручивается в спирали, как можно видеть на фрагменте гемоглобина, изображенном на заднем плане, где спирали в виде лент изображают полипептидные цепи.
Поскольку молекула ДНК состоит из последовательности нуклеотидов A, C, G и T, естественно предположить, что они являются «буквами», из которых комбинируются «слова», кодоны, определяющие последовательность, в которой должны связываться аминокислоты. Поскольку есть только четыре буквы, а нам нужно определить двадцать аминокислот, вместе с указаниями, где им начинаться и кончаться, этот код, очевидно, не может быть ни однобуквенным, ни двухбуквенным. Однобуквенный код может идентифицировать только четыре аминокислоты, а двухбуквенный код способен идентифицировать только шестнадцать. Трехбуквенным кодом, в котором ACG обозначает одну аминокислоту, CAT другую, и т.д., можно определить 43=64 аминокислоты и знака пунктуации, что более чем достаточно. Подозревая Природу в естественной скупости (то есть в бессознательном, но эффективном использовании скудных ресурсов и в бессознательном, но эффективном избегании излишних затрат энергии), мы можем ожидать, что генетический код является триплетным кодом, кодом, основанным на трехбуквенных кодонах. Нет никаких априорных оснований для того, чтобы отвергнуть переменный код, в котором две буквы означают одни аминокислоты, три — другие и так далее; но Природа не приняла это неэлегантное решение, и проявила милосердие к ранним исследователям, вознамерившимся взломать генетический код, когда оказалось, что у них нет необходимости исследовать этот тупик. Одно из преимуществ триплетного кода состоит в том, что он позволяет Природе расширять свой репертуар, используя некоторую избыточность кода для кодирования новых аминокислот. Это уже дает намек на способ, которым может развиваться такое расширение. Как мы только что видели, иногда появляется двадцать первая аминокислота, селеноцистеин: триплетным кодом для этой аминокислоты является TGA. Он же используется как сигнал остановки и меняет свою функцию в зависимости от наличия селена. Если селен доступен, TGA говорит «даешь селеноцистеин», если нет, TGA командует «стоп машина, хватит строить этот белок».
Взломщики кодов все же исследовали тупиковые пути, иногда с большой элегантностью, но делали это в манере Аристотеля, сидя в кресле. Эксперимент вмешался снова и показал, что Природа не принимает наиболее элегантные, экономные схемы, которые выбрали бы люди, если бы власть была у них. Генетический код казался кодом, о котором взломщики кодов всегда мечтали, поскольку символов было так мало (четыре), а зашифрован был не приказ о наступлении, а всего лишь одна из приблизительно двадцати возможностей. В то время, в 1953 г., данных почти не было, ибо никто не знал ни одной нуклеотидной последовательности ДНК, а известные последовательности аминокислот в белках были известны весьма приблизительно: Фредерик Сэнгер (р. 1918) был близок к завершению своей дешифровки белка инсулина (которую он закончил в 1955 г.), но это было почти все. Открылось множество возможностей для неограниченного воображения.
Русский физик Георгий Гамов (1904-1968) бесспорно обладал неограниченным воображением, поскольку он инициировал теорию происхождения Вселенной в результате Большого Взрыва и придумал теорию происхождения элементарных частиц. Он интересовался всем, и вполне естественно, что его внимание привлекла самая животрепещущая проблема 50-х, генетический код. Гамов выдвинул блистательную идею: белки растут на внешней стороне двойной спирали в ромбоидальных полостях, расположенных в желобках спирали. Эти полости образованы четырьмя нуклеотидными основаниями, два из одной нити, на вершине и на дне ромба, а в двух других углах основание из той же нити и его партнер из другой. Это остроумное решение дает триплетный код, даже несмотря на то, что в него входят четыре нуклеотида, потому что два последних (пара комплементарных оснований, например, А…T) считаются за одну букву (ведь если одним основанием является А, то другим непременно будет T). Затем он представил себе, что аминокислоты располагаются в соответствующих им нишах, а пробегающие мимо ферменты скрепляют их вместе. Далее он предположил, что ромбы, связанные закручиванием горизонтально или вертикально, кодируют одну и ту же аминокислоту, и в результате остается только двадцать различных кодонов, как раз то число, которое, как он полагал, было необходимо. Изобретательность, однако, в этом случае заставила сделать ложный шаг, здесь не хватало избыточности и не было места для кодонов запуска и остановки. С оптимизмом, который порождается энтузиазмом, с оптимизмом, произошедшим из энтузиазма, Гамов думал, что он, видимо, нашел путь к решению проблемы.
Ромбический код Гамова обладает еще одним особым свойством: он является перекрывающимся кодом, в том смысле, что каждое нуклеотидное основание входит одновременно в три кодона. Так, последовательность AGTCTTG состоит из кодонов AGTCTTG, AGTCTTG, AGTCTTG, AGTCTTG и AGTCTTG. Перекрывающийся код очень эффективен и компактен, что, казалось бы, делает его для Природы привлекательным кандидатом на занятие должности. У Природы, однако, были иные идеи. Одна из проблем, создаваемых перекрывающимся кодом, состоит в том, что многие аминокислотные последовательности оказываются вне игры. Например, предположим, что мы хотим закодировать дипептид, очень маленький белок, состоящий из двух аминокислот. Его образцом является заменитель сахара аспартам, комбинация слегка модифицированных форм двух аминокислот, аспарагиновой кислоты и фенилаланина. Поскольку существуют двадцать естественно образующихся аминокислот, существует 20×20=400 возможных дипептидов. Чтобы закодировать две аминокислоты перекрывающимся кодом, необходимы четыре основания, например, CCGA, чтобы получить CCGA для аминокислоты пролина (которую означает данный триплет) и CCGA для аргинина. Но существует всего 4×4×4×4=256 возможных комбинаций из четырех нуклеотидных оснований, поэтому многие дипептиды не могут быть закодированы (аспартам является одним из них). Однако эти запрещенные комбинации начинают обнаруживать, а это показывает, что Природа не использует элегантность перекрывающегося кода: она требует большей гибкости для своих действий в непрекращающейся взыскательной игре эволюции. Сидни Бреннер (р. 1927) осуществил исчерпывающий анализ этой проблемы: он показал, что все возможные перекрывающиеся коды не совместимы с известными последовательностями аминокислот. Другим, даже более заметным гвоздем в этом, теперь уже плотно заколоченном, гробу явился тот факт, что изменение одной буквы может изменить состав белка сразу на три аминокислоты. Действительно, если бы цепочка AGTCTTG подверглась мутации AGGCTTG, то она состояла бы из кодонов AGGCTTG, AGGCTTG, AGGCTTG и так далее, возможно, со зловещими последствиями для белка и организма, который часто не может пережить замены даже одного основания.