Борис Медников - Аналогия
Но оставим это литературоведам и перейдем к специальным языкам. Строго говоря, к ним нельзя применить это название. Специальные языки — это способы построения текстов, подлежащих передаче по каналу со специфическими свойствами, например, при наличии высокого уровня помех. Особенно часто они используются там, где ошибка в расшифровке сообщения стоит чересчур дорого. С этой точки зрения для нас наиболее интересен язык аэродромных диспетчеров, на котором они общаются по радио с пилотами взлетающих и идущих на посадку самолетов.
Соответствующие исследования показали чудовищную избыточность языка диспетчеров — до 96%! Только столь низкая информационная плотность сигнала позволяет преодолеть высокий уровень помех. И хорошо, что никому в голову не приходит объявить 96% слов в радиопереговорах лишними, мусорными и наказывать пилотов и диспетчеров за многословие.
А каковы условия передачи генетической информации? Не надо забывать, что она передается на молекулярном уровне. Лучше всего эти условия охарактеризовал С. Э. Шноль: «Молекулярная машина существует в оглушительном тепловом шуме, „целесообразные“ движения ее деталей происходят среди теплового беспорядка и являются статистическим итогом разнонаправленного „броунирования“». Впервые об этом сказал Н. И. Кобозев, рассматривая принципы действия молекул ферментов. Но они полностью применимы и к действию генов. Ведь и синтез РНК на ДНК (транскрипция), и синтез белка на РНК (трансляция), и синтез ДНК на ДНК (репликация) — все это химические реакции, катализируемые ферментами. Львиная доля мутаций — изменений структуры наших генетических программ — определяется именно тепловым шумом — хаотическим движением молекул в клетке. С точки зрения теории информации он полностью аналогичен шуму в репродукторе приемника (тот вызывается тепловыми флуктуациями электронов в цепях усилителя).
Согласно теории Шеннона любой механизм повышения помехоустойчивости информационного канала неизбежно приводит к повышению избыточности текста. Стоит ли удивляться, что избыточность наших генетических программ столь велика? И имеем ли мы право называть избыточную ДНК эгоистичной и паразитической?
Иное дело — выяснить, каковы механизмы, с помощью которых избыточность генетического текста превращается в его помехоустойчивость. Несомненно, их несколько. Далеко не все мы успели установить. Наконец, вряд ли мы найдем здесь полную аналогию с каналами передачи мемофондов: слишком уж различается материальная основа обеих каналов. Но на некоторых следует остановиться особо, потому что анализ их приводит к любопытным и важным выводам. Прежде, однако, рассмотрим структуру самих генетических текстов.
Как устроены наши программы. С чего начинает исследователь, если ему в руки попадает закодированный на неизвестном языке текст? Сначала он определяет, сколько в нем знаков (символов, букв), и какова частота встречаемости каждого знака по отдельности и в сочетаниях с другими. Большой удачей считается на этой стадии выявить символ, обозначающий пробел между словами. Но его может и не быть. Древние римляне и греки, средневековые новгородцы писали без пробелов. Вообще открытие пробела было своего рода революцией, чуть ли не вдвое повысившей скорость считывания информации.
Далее наш дешифровщик будет стараться найти устойчивые группы, устойчивые сочетания знаков (слова), которым он будет приписывать какой-либо смысл. На этой же стадии выявляется тип языка — имеет ли он флексии, каковы закономерности изменения начал и окончаний слов, и так далее. Теперь, в эпоху компьютеров, подобные работы проводятся относительно быстро — при условии, что исследуемый текст достаточно велик. Этрусский язык, например, до сих пор не расшифрован, потому что в распоряжении исследователей имеются лишь короткие, неинформативные надгробные надписи.
Казалось бы, этот метод вполне подходит для дешифровки текстов на языке ДНК. К сожалению, перед молекулярными биологами встали трудности, неведомые этрускологам.
Еще двадцать лет назад мы практически не умели читать ДНК-тексты. Было известно лишь, что они «написаны» 4-буквенным алфавитом (А, Т, Г, Ц) и что аминокислоты в белках и пробелы между белковыми «словами» кодируются сочетаниями из этих четырех букв по три. Даже сейчас, когда прочитаны уже миллионы этих букв, в распоряжении расшифровщиков нет ни одного достаточно представительного куска сообщения (ведь в геноме человека 3,2 миллиарда букв). И, тем не менее, о структуре наших программ мы знаем уже немало. Молекулярным биологам помогло то, что ДНК — двойная спираль комплементарных друг другу последовательностей. Между собой нуклеотиды в последовательности связаны довольно устойчивыми фосфодиэфирными связями. А сами цепи ДНК в двойной спирали скрепляются так называемыми водородными связями, неустойчивыми уже при высокой (100°) температуре или рН ~ 11. Используя один из этих факторов, ДНК можно разделить на две комплементарные половинки (денатурировать). Если понизить температуру или рН, начинается обратный процесс — ренатурация. Комплементарные половинки находят друг друга и восстанавливают двойные спирали. Денатурируя и отжигая ДНК, предварительно «поломанную» ультразвуком на куски разной длины, исследователи пришли к важнейшим выводам о структуре генетического текста — не прочитав пока ни единой буквы!
Прежде всего, чем более разнородны последовательности в геноме, тем медленнее идет реассоциация, отжиг. Это вполне понятно. Хотя тепловое движение молекул осуществляет миллионы сталкиваний половинок ДНК в секунду, в большой совокупности генов далеко не каждая одноцепочечная ДНК сталкивается с комплементарной половинкой. Грубо говоря, чем больше обуви в прихожей, тем труднее найти башмак под пару.
И сразу ДНК высших организмов, имеющих оформленное ядро, преподнесла сюрприз. Часть ее (до 10%) ренатурировала крайне быстро, как простая, содержащая мало генов ДНК вирусов. Другая (20-30%) — отжигалась медленнее, в зависимости от концентрации многими часами. И, наконец, для отжига, восстановления двойной спирали 60-70% ДНК требовалось несколько суток.
Объяснить этот факт можно было так: в ДНК эукариотных организмов имеются три переходящие друг в друга фракции:
1) Высокоповторяющиеся (до нескольких миллионов раз) последовательности — ВПП. Именно потому, что они представлены сотнями тысяч и миллионами копий, их комплементарные половины быстро находят друг друга при отжиге. Обычно они состоят из коротких единиц, следующих друг за другом тандемом, как вагоны в поезде. Белков они не кодируют, и что они делают в геноме — неизвестно. Высказывались предположения, что именно они ограничивают скрещивание между особями, принадлежащими к разным видам, однако доказать это пока не удалось. Любопытно, что создатель теории «эгоистичной» ДНК Дулиттл не считает их «эгоистами». По его мнению, это «невежественная» ДНК, т. е. такая, которая выполняет пока неясную нам функцию только своим наличием, независимо от содержания. То есть, ВПП нужны в хромосомах как инертный наполнитесь, вроде сахара в лекарственных таблетках.
2) Средние повторяющиеся последовательности (СПП). Число их копий в геноме колеблется от десятков тысяч до сотен тысяч. Между этой фракцией и предыдущей нет резкой границы: например типичный средний повтор ДНК человека Alul представлен в наших геномах 300 тыс. копий и более. На мой взгляд, это самый интересный класс ДНК, позволяющий строить практически неограниченное число спекуляций. Именно СПП, во всяком случае значительную часть их, обвиняют в эгоизме.
3) Наконец, уникальные последовательности (УП). Судя по названию, они представлены в геноме (гаплоидном) только один раз, во всяком случае, не более десяти. Большинство структурных генов, кодирующих белки, относятся к этому классу. Но хотя доля их во фракции очень мала, УП в геномах высших организмов в 10-100 раз больше, чем нужно для того, чтобы записать информацию о всевозможных белках. Что же делают остальные УП?
Часть их удается «пристроить» в качестве так называемых спейсеров-разделителей, разобщающих структурные гены. Но спейсерами бывают и СПП. «Эгоистичными» их тоже назвать нельзя: согласно этой теории гены-эгоисты защищаются от вырезания из хромосом и сохраняют свой состав. К большей части УП обычно применяют термины «мусорная» и «мертвая», иногда «умирающая» ДНК.
Все это далеко не так просто, и вот почему. У ядерных организмов и архебактерий структурные гены имеют сложное строение. Куски ДНК, кодирующие аминокислотные последовательности (экзоны), перемежаются последовательностями, не кодирующими ничего (интронами). При созревании информационной РНК интроны вырезаются специальными ферментами и отбрасываются, а экзоны сшиваются другим ферментом — лигазой в зрелую РНК, на которой может транслироваться белок. Интроны дружно объявили ненужными частями гена — ведь белка они не кодируют! Но этому мешает одно неприятное обстоятельство.