Даглас Хофштадтер - ГЕДЕЛЬ, ЭШЕР, БАХ: эта бесконечная гирлянда
Другой новый термин — это копирующий режим. Любая цепочка может быть «скопирована» на другую цепочку, но делается это довольно необычным способом. Вместо того, чтобы копировать А на А, вы копируете его на Т, и наоборот. И вместо того, чтобы копировать С на С, вы копируете его на G, и наоборот. Обратите внимание, что пурин копируется на пиримидин, и наоборот. Это называется спариванием комплементарных оснований. Комплементы приведены ниже:
. комплемент
пури- | A <==> T |пиримидины
ны | G <==> C |
Таким образом, «копируя» цепочку, вы не повторяете ее в точности, а производите ее комплементарную цепочку, которая будет записана над первоначальной цепочкой вверх ногами. Рассмотрим конкретный случай. Представьте себе, что упомянутый энзим действует на следующую цепочку (этот энзим тоже любит начинать с А):
CAAAGAGAATCCTCTTTGAT
Энзим может стартовать с любого А; предположим, что он начал со второго. Энзим прикрепляется к нему, затем выполняет шаг (1): поиск ближайшего справа пиримидина. Это означает либо С либо Т. Первое Т находится примерно в середине цепочки, куда мы и отправляемся. Теперь шаг (2): копирующий режим. Напишем над Т перевернутое А. Но это еще не все — копирующий режим продолжает действовать, пока он не отключен — или пока энзим не кончит работать. Это значит, что каждое основание, мимо которого проходит энзим, находящийся в режиме копирования, получит сверху комплементарное основание. Шаг (3) велит нам искать первый пурин справа от нашего Т. Это G, третье с правого конца. Продвигаясь к этой букве, мы должны «копировать», то есть создавать комплементарную цепочку. Вот что у нас получается:
Последним шагом является разрезка цепочки. Результатом этого будут две новые цепочки:
и AT.
Мы выполнили все команды, в результате у нас получилась двойная цепочка. Когда такое случается, мы отделяем комплементарные цепочки друг от друга (это общий принцип), в результате нашим конечным продуктом будут три цепочки:
AT, CAAAGAGGA и CAAAGAGAATCCTCTTTG
Заметьте, что цепочка бывшая вверх ногами, теперь записана в нормальном виде поэтому правая и левая сторона поменялись местами. Итак, вы ознакомились с большинством типографских операций, которые будут производиться с цепочками. Необходимо упомянуть еще о двух командах. Первая выключает копирующий режим, вторая перебрасывает энзим с данной цепочки на перевернутую цепочку над ней. Когда такое происходит, то вам приходится заменить во всех командах «правый» на «левый», и наоборот. Вместо этого можно просто перевернуть бумагу так, что верхняя цепочка встанет с головы на ноги. Если дана команда перебросить энзим, над которым в данный момент нет комплементарного основания, то энзим отсоединяется от цепочки и на этом его работа заканчивается.
Надо иметь в виду что если у нас имеются две цепочки то команда «разрезать» относится к обеим из них, в то время как «стереть» относится только к той цепочке, над которой энзим работает в данный момент. Когда копирующий режим находится в действии, команда «вставить» относится к обеим цепочкам, и мы вставляем само основание в цепочку, где находится энзим, а его комплемент в верхнюю цепочку. Если копирующий режим выключен, то команда «вставить» относится только к одной цепочке, и в цепочку наверху вставляется пробел.
Когда действует копирующий режим, команды «двигаться» и «искать» означают, что над каждым основанием, мимо которого проходит энзим, нам приходится записывать комплементарное основание. Когда энзим начинает работать, копирующий режим всегда выключен. Если в этот момент встречается команда «выключить копирующий режим», то ничего не происходит. Так же, если копирующий режим уже включен, команда «включить копирующий режим» остается без последствий.
Аминокислотыraz — разрезать цепочку
str — стереть основание из цепочки
prb — перебросить энзим на другую цепочку
sdl — сдвинуться на одно подразделение влево
sdp — сдвинуться на одно подразделение вправо
кор — включить копирующий режим
vyk — выключить копирующий режим
vsa — вставить А справа от данного подразделения
vsc — вставить С справа от данного подразделения
vsg — вставить G справа от данного подразделения
vst — вставить Т справа от данного подразделения
рmр — искать первый пиримидин справа
рrр — искать первый пурин справа
pml — искать первый пиримидин слева
prl — искать первый пурин слева
Каждая из этих команд — сокращение из трех букв. Мы будем называть эти сокращения аминокислотами. Таким образом, каждый энзим состоит из последовательности аминокислот.
Давайте выберем наугад один из энзимов:
рrр — vsc — кор — sdp — sdl — prb — prl — vst
а также какую-либо цепочку, например,
TAGATCCAGTCCATGGA
и посмотрим, как энзим действует на эту цепочку. Данный энзим присоединяется только к G. Предположим, что на этот раз он начнет с G в середине. Сначала мы ищем пурин справа (то есть, А или G). Теперь мы (энзим) пропускаем ТСС и попадаем на А. Вставляем С. Теперь у нас получается:
Стрелочкой отмечено подразделение, к которому привязан энзим. Включаем копирующий режим. Это дает нам перевернутое G над С. Сдвигаемся сначала направо, потом налево, потом переходим на другую цепочку. До сих пор у нас получилось вот что:
Перевернем это, с тем чтобы энзим оказался прикрепленным к нижней цепочке:
Теперь мы ищем пурин слева, и находим А. Копирующий режим находится в действии, но комплементарные основания уже есть, поэтому мы ничего не добавляем. Наконец, мы вставляем Т и останавливаемся:
Окончательным результатом являются две цепочки:
ATG и TAGATCCAGTCCACATCGA
Прежняя цепочка, разумеется, утеряна.
Перевод и типогенетическии кодЧитатель может спросить, откуда берутся энзимы и цепочки, и как можно узнать, к какой букве прикрепляется в начале каждый данный энзим. Чтобы найти ответ на второй вопрос, можно попробовать взять наудачу несколько цепочек и посмотреть, как действуют на них и на их «потомков» различные энзимы. Это напоминает головоломку MU, в которой мы начинали с некоей аксиомы и нескольких правил. Единственная разница заключается в том, что после того, как энзим обработал первоначальную цепочку, она утрачивается навсегда. В головоломке MU при получении MIU из MI строчка MI остается невредимой.
Однако в типогенетике, так же как и в настоящей генетике, мы имеем дело с гораздо более сложной схемой. Мы так же начинаем с неких случайных цепочек, подобных аксиомам формальных систем. Но теперь у нас нет «правил вывода» — то есть энзимов. Однако, мы можем перевести каждую цепочку в один или несколько энзимов! Таким образом, сами цепочки будут указывать нам, какие операции должны производиться на них, и эти операции, в свою очередь, произведут новые цепочки, которые укажут на следующие операции, и т. д, и т. п! Вот так смешение уровней! Для сравнения подумайте, насколько изменилась бы головоломка MU, если бы каждая новая теорема могла бы быть превращена в правило вывода при помощи некоего кода.
Как же делается подобный «перевод»? Для этого используется типогенетический код, при помощи которого соседние пары оснований — так называемые «дублеты» представляют различные аминокислоты. Существует шестнадцать возможных дублетов АА, AC, AG, AT, CA, СС и т. д. С другой стороны, у нас есть пятнадцать аминокислот. Типогенетический код показан на рис 87.
Рис. 87. Типогенетический код, при помощи которого каждый дублет кодируется как одна из аминокислот (или как знак препинания).
Из таблицы следует, что перевод дублета GC — «vsc» («вставить С»); что AT переводится как «prb» («перебросить энзим на другую цепочку») и так далее. Таким образом, становится ясно, что цепочка может прямо определять энзим. Например, цепочка:
TAGATCCAGTCCACATCGА
разделяется на дублеты следующим образом:
ТА GA ТС CA GT СС AC AT CG А
Последнее А остается без пары. Вот перевод этой цепочки в энзимы:
рmр — vsa — рrр — sdp — vst — sdl — raz — prb — kop
(Заметьте, что оставшееся А ничего не добавляет).
Третичная структура энзимовЧитатель, наверное, обратил внимание на маленькие буквы в нижнем правом углу каждого квадрата. Они очень важны для определения того, к какой букве предпочитает прикрепляться каждый энзим вначале Это определяется довольно необычным способом. Для этого приходится выяснить, какую «третичную структуру» имеет каждый энзим; эта третичная структура, в свою очередь, определена его первичной структурой. Под первичной структурой здесь понимается последовательность в энзиме аминокислот; под третичной структурой — то, каким образом он «уложен» в пространстве. Дело в том, что энзимы не любят располагаться по прямым, как мы их до сих пор представляли. Каждая расположенная внутри цепочки (но не на ее концах) аминокислота может изогнуться; направление изгиба определяется буквами в углах квадратов. Так «l» и «r» обозначают, соответственно, «влево» и «вправо», а буква «s» значит «прямо». Давайте возьмем наш последний пример энзима и постараемся представить себе его третичную структуру. Мы начнем с первичной структуры и будем продвигаться слева направо. После каждого энзима, снабженного в таблице буквой «l», мы будем поворачивать налево, после энзимов с буквой «r» — направо, а после энзимов с «s» поворота не будет. На рис. 88 показана схема (в двух измерениях) нашего энзима: