Анатолий Клёсов - Кому мешает ДНК-генеалогия?
Надо сказать, что неопытный читатель тут же запротестует, что, мол, как можно по всей Германии, или любому другому региону судить по каким-то 67 гаплотипам, а там живут миллионы человек. Эта тема была подробно, с экспериментальными данными проанализирована в ДНК-генеалогии, и объяснена в ответе на Вопрос 37, где был задан риторический встречный вопрос – чтобы понять, что море соленое, нужно ли пробовать воду из всех бухточек? А как же химики делают анализ растворов, беря пробу всего лишь в долю миллилитра из ведра, цистерны, озера? Когда делают анализ крови, что, всю кровь из вас выкачивают? Нет. Значит, вопрос о размере пробы поставлен некорректно. Вопрос на самом деле сводится к тому, равномерно ли перемешана система, чтобы по малой пробе, или выборке, судить о всей системе.
Рис. 2. Дерево из 286 гаплотипов современных немцев гаплогруппы R1a в 67-маркерном формате (база данных IRAKAZ-2015). Три гаплотипа внизу (номера 1, 2, 3) относятся к древнейшему субкладу гаплогруппы, R1a-M420, и в расчеты (см. текст) не включались. Все остальные гаплотипы относились к субкладу М417 (см. диаграмму) и нижестоящим субкладам (на диаграмме не показаны, их несколько десятков). Расчеты проводили на калькуляторе Килина-Клёсова, поскольку ручной расчет системы с более чем 22 тысячи аллелей слишком трудозатратен.
Продолжая это рассмотрение, рассмотрим выборку по Германии уже 2015 года. Теперь в ней 286 гаплотипов в 67– и 65 гаплотипов в 111-маркерном формате (база данных IRAKAZ-2015). Выше – дерево 67-маркерных гаплотипов.
В подписи к рис. 2 для иллюстрации приведена «лесенка» нескольких субкладов гаплогруппы R1a, родительской которых является гаплогруппа R (ее снип – М207, то есть это индекс характерной и уникальной мутации в Y-хромосоме ДНК, которую (мутацию) несут все потомки первопредка гаплогруппы R. Через тысячелетия (в данном случае примерно через 10 тысяч лет) один из потомков первопредка гаплогруппы R получил мутацию М173 (очередной снип), и эта гаплогруппа, которую это потомок основал, став ее патриархом, в классификации называется R1. Она возникла (путем образования мутации М173) примерно 30 тысяч лет назад. Далее, примерно 20 тысяч лет назад, возникла гаплогруппа R1a (путем образования мутации/снипа М420), это произошло, видимо, в Южной Сибири, на Алтае. Три носителя данного снипа были найдены в Европе, в Германии, и они попали на дерево гаплотипов на рис. 6, под номерами 1, 2 и 3. Их последующие потомки – носители субкладов R1a1, R1a1a1, R1a1a, и так далее, на десятки уровней вниз.
Возвращаемся к дереву гаплотипов на рис. 2. Общий предок всех 67-маркерных гаплотипов дерева жил 4848±415 лет назад, всех 67– и 111-маркерных гаплотипов – 4294±298 лет назад, при округлении получаем 4800±400 и 4300±300 лет назад. Среднюю величину можно не брать, и так видно, что она практически равна полученным ранее, в 2008 году, и с совершенно другой выборкой в Германии 4575±560 лет и 4675±510 лет до общего предка, расчитанным по 12– и 25-маркерным гаплотипам.
Таким образом, обе выборки – 2008 и 2014 гг в Германии являются вполне репрезентативными для целей настоящего исследования.
Помимо этого, в ДНК-генеалогии введен принципиально новый метод для расчетов хронологии, основываясь на картине мутаций ДНК– так называемый логарифмический метод. Покажем его эфективность на примере, приведенном выше, для серии из 67 гаплотипов гаплогруппы R1a из Германии (см. рис. 2). В 12-маркерном формате из этой серии всего три гаплотипа идентичны друг другу, значит, это и есть базовые, то есть предковые гаплотипы (хотя для столь малого числа базовых гаплотипов не исключена ошибка в их отнесении к предковым, потому они и называются базовыми, а не буквально предковыми). Получаем: [ln(67/3)]/0.02 = 155 → 183 условных поколений, то есть примерно 4575 лет до общего предка всей серии. Расчет по мутациям, которых в этой серии было 208 (см. выше), дает 208/67/0.02 = 155→183 условных поколений (по 25 лет) от общего предка, то есть 4575±560 лет до общего предка. Совпадение получилось практически абсолютным, но это в данном расчете случайно, потому что чисто статистически в данной серии могли оказаться как 2, так и 4 базовых гаплотипа, и погрешность при таких малых количествах базовых гаплотипов велика. Тем не менее, логарифмический (без подсчета мутаций) и линейный (с подсчетом мутаций) методы расчетов показывают, что серия гаплотипов вполне подходит для расчетов, и что общий их предок действительно жил примерно 4600 лет назад.
Но для 25-маркерных гаплотипов при таком малом числе гаплотипов и таком довольно удаленном общем предке расчет по логарифмическому методу уже невозможен. Даже два базовых 25-маркерных гаплотипа сохраняются всего лишь на протяжении [ln(67/2)]/0.046 = 76 → 83 условных поколений, то есть примерно 2075 лет. После этого и двух базовых гаплотипов не остается. Но даже отсюда можно – просто на взгляд, без расчетов – получить граничную информацию о времени жизни общего предка серии гаплотипов, в данном случае – больше 2100 лет назад. Здесь 0.02 и 0.046 – константы скорости мутаций для 12– и 25-маркерных гаплотипов.
Чем больше по численности серия гаплотипов, происходящих от одного предка, тем точнее расчет времени жизни этого предка. И тем больше экономия времени при расчетах, поскольку логарифмический метод не требует подсчета числа мутаций в гаплотипах. Например, из 2000 12-маркерных гаплотипов субклада R1b-L21 114 гаплотипов являются базовыми, то есть идентичными друг другу. Это дает [ln(2000/114)]/0.02 = 143 → 167 условных поколений, или 4175±570 лет до общего предка. Расчет по мутациям (для 67-маркерных гаплотипов) дает 4325±350 лет до общего предка. Разница между логарифмическим и линейным (то есть по мутациям) методами расчета дает всего лишь 3.6 % разницы, хотя погрешность расчетов ее увеличивает. Если округлить полученные величины с учетом погрешностей до 4200 и 4300 лет до общего предка, разница между ними становится равной всего лишь 2.4 %.
Другой подобный пример – из 2000 12-маркерных гаплотипов субклада RW-Z280 базовыми являются 88 гаплотипов. Мы уже видим, что R1a-Z280 заметно старше, чем R1b-L21 (см. предыдущий абзац). Действительно, это дает [ln(2000/88)]/0.02 = 156 → 184 условных поколений, или 4600±б70 лет до общего предка. Расчет по мутациям (для 67-маркерных гаплотипов) дает 4825±320 лет до общего предка (см. таблицу выше). Разница между логарифмическим и линейным (то есть по мутациям) методами расчета дает всего 4.9 % разницы. Если округлить полученные величины с учетом погрешностей до 4600 и 4800 лет до общего предка, разница между ними становится равной 4.3 %. Для 25-маркерных гаплотипов базовых в серии из 2000 R1a-Z280 остаются только два базовых, что дает [ln(2000/2)]/0.046 = 150 → 176 условных поколений, или примерно 4400 лет до общего предка. Погрешность там велика, поскольку там, где есть только два базовых гаплотипа, легко могли остаться один или три. Но видно, что закономерности в целом соблюдаются.
Как мы видим, мутации в гаплотипах потомков расходятся от предкового гаплотипа как круги по воде, число мутаций легко рассчитывается, и они подчиняются довольно простым количественным закономерностям. Для кругов на воде, расходящихся от места, куда был брошен камень, легко рассчитать, когда был брошен камень, если знать скорость распространения волны и место нахождения круговой волны в данный момент времени. Чем больше прошло времени – тем дальше круги ушли, тем больше они разошлись. Так и в гаплотипах – чем больше время, прошедшее от общего предка, тем больше мутаций накопилось в гаплотипах его потомков. Число этих мутаций связано с временем, прошедшим от общего предка, с числом гаплотипов в серии, и с константой скорости мутации в гаплотипах, и выражается простой формулой: n/N = kt, где n – число мутаций в серии из N гаплотипов, k – константа скорости мутации (в числе мутаций на гаплотип за условное поколение, равное 25 лет), t – число условных поколений, с табличной поправкой на возвратные мутации[27]. На сотнях и тысячах примеров показано, что эта формула работает при любом числе гаплотипов и мутаций в них, и при любом времени, прошедшем от общего предка рассматриваемых гаплотипов.
Однако при очень больших временах, более 10–20 тысяч лет, и особенно более 100 тысяч лет, нужно использовать гаплотипы с «медленными» маркерами, то есть с малыми константами скоростей мутаций, и тем самым снижать число мутаций и число возвратных мутаций. По аналогии, вряд ли целесообразно изучать скорости радиоактивного распада элементов со временами полураспада в тысячелетия, используя секундомер. Или пытаться изучать круги на воде за километры от места, куда был брошен камень, для этого нужно значительно более мощное воздействие. Как всегда, нужен конкретный анализ в конкретной ситуации, единых подходов на все случае жизни не бывает. Варианты конкретного анализа в конкретных ситуациях и рассматривает ДНК-генеалогия. Некоторые ситуации и расчеты мы расмотрим ниже.