Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1)
Оказывается, все частотные графики K(Q,T) для текстов 1–4 практически совпадают с идеальным, что подтверждает принцип затухания частот.
Отметим одно из следствий проверенного эксперимента. На значительных временных интервалах, оказывается, НЕ БЫЛО «МОДЫ НА ДРЕВНИЕ ИМЕНА», что само по себе отнюдь не очевидно. Конечно, ОТДЕЛЬНЫЕ древние имена употребляются и сегодня, например Петр, Мария и т. д. Но, как выяснилось, либо эти имена — не полные, либо процент таких «выживших древних» имен очень мал по сравнению с ОСНОВНОЙ МАССОЙ «вымирающих» имен. Наличие «выживших» имен означает, что экспериментальные графики K(Q,T) падают при движении слева направо не до нуля, а до некоторой ненулевой постоянной.
ПРИМЕР 3. В качестве текста X, описывающего период 976-1341 гг. н. э. в истории Византии, был взят следующий набор первоисточников:
1) Михаил Пселл, «Хронография», М., 1987. Описывает период 976-1075 годы.
2) Анна Комнина, «Сокращенное сказание о делах царя Алексея Комнина» (1081–1118), СПБ, 1859.
3) Иоанн Киннам, «Краткое обозрение царствования Иоанна и Мануила Комнинов» (1118–1180), СПБ, 1859.
4) Никита Хониат, т. 1, «История, начинающаяся с царствования Иоанна Комнина» (1118–1185), СПБ, 1860.
5) Никита Хониат, т. 2, «История со времени царствования Иоанна Комнина» (1186–1206), СПБ, 1862.
6) Георгий Акрополит, «Летопись» (1203–1261), СПБ, 1863.
7) Георгий Пахимер, «История о Михаиле и Андронике Палеологах» (1255–1282), СПБ, 1862.
8) Никифор Григора, «Римская история» (1204–1341), СПБ, 1862).
Этот набор текстов содержит несколько десятков тысяч упоминаний полных имен, с кратностями. Оказалось, что все частотные графики K(Q,T) на интервалах 976-1200 годы и 1200–1341 годы практически тождественны с идеальным. И здесь принцип затухания частот оказался выполненным. А с другой стороны, оказалось, что хронологический порядок текстов внутри каждого из указанных интервалов времени ПРАВИЛЕН.
ПРИМЕР 4. Ф. Грегоровиус, «История города Рима в средние века», СПБ, тт. 1–6, 1902–1912. Из этого текста были выделены куски, описывающие:
1) 300–560 гг. н. э.,
2) 560–900 гг. н. э.,
3) 900-1250 гг. н. э.,
4) 1250–1500 гг. н. э.
Каждый из них был разбит на «главы-поколения», резервуар имен насчитывает несколько десятков тысяч упоминаний. Оказалось, что принцип затухания частот верен и упорядочивание «глав» в каждом из текстов 1–4 хронологически правильно.
Аналогичный результат получен и для монографии Кольрауша «История Германии» (М., тт. 1–2, 1860), в которой были выделены куски, описывающие:
1) 600-1000 годы н. э.,
2) 1000–1273 годы н. э.,
3) 1273–1700 годы н. э.
5. Методика датирования событий
Всего нами было обработано несколько десятков исторических текстов. Во всех случаях принцип затухания частот подтвердился. Отсюда вытекает методика хронологически правильного упорядочивания «глав-поколений» в тексте, или в наборе текстов, где этот порядок нарушен или неизвестен. Рассмотрим совокупность «глав-поколений» летописи Х и занумеруем их в каком-нибудь порядке. Для каждой «главы» X(Q) подсчитаем число K(Q,T) при заданной нумерации «глав». Все числа K(Q,T), при переменных Q и T, естественно организуются в квадратную матрицу К{Т} размера n × n, где n — число «глав». В идеальном теоретическом случае частотная матрица К{Т} имеет вид, показанный на рис. 3.38.
На рис. 3.38, ниже главной диагонали стоят нули, на главной диагонали расположен абсолютный максимум в каждой строке. Затем каждый график, в каждой строке, монотонно падает, затухает.
Оказывается, аналогичная картина затухания наблюдается и для столбцов матрицы. Это означает, что частота употребления в «главе» X(Q) имен более раннего происхождения «в среднем» падает по мере удаления поколения T, породившего эти имена, от фиксированного поколения Q.
Для оценки скорости затухания частот удобно пользоваться усредненным графиком
сумма величин K(Q,P), где P-Q=T
Kсред.(T) = —.
n-T
В этой формуле суммирование выполняется по всем парам (Q,P), для которых разность P-Q фиксирована и равна T. Другими словами, график Kсред.(T) получается усреднением матрицы K{T} по ее диагоналям, параллельным главной. Он изображает «усредненную строку» или «усредненный столбец» частотной матрицы. Здесь T изменяется от 0 до n-1.
Конечно, экспериментальные графики могут не совпадать с теоретическим.
Если теперь изменить нумерацию «глав» в летописи, то изменятся и числа K(Q,T), поскольку возникает довольно сложное перераспределение «впервые появившихся имен». Следовательно, меняется частотная матрица К{T} и ее элементы. Меняя порядок «глав» летописи с помощью различных перестановок s, и вычисляя каждый раз новую частотную матрицу К{sТ}, где sT — новая нумерация, соответствующая перестановке s, будем искать такой порядок «глав» летописи, при котором все или почти все графики будут иметь вид, показанный на рис. 3.37. В этом случае экспериментальная частотная матрица К{sТ} будет наиболее близка к теоретической матрице на рис. 3.38. Тот порядок «глав» летописи, при котором отклонение экспериментальной матрицы будет наименьшим, и следует признать хронологически правильным и искомым.
Эта методика позволяет также датировать события. Пусть дан какой-то исторический текст Y, о котором известно только, что он описывает какие-то события из эпохи (А,В), уже описанной в тексте X, разбитом на «главы-поколения», причем порядок этих «глав» в X хронологически правилен. Как узнать, какое именно поколение описано в интересующем нас тексте Y? При этом мы хотим использовать только количественные характеристики текстов, не апеллируя к их смысловому содержанию, которое может быть существенно неоднозначно и может допускать разнящиеся трактовки.
Ответ таков. Присоединим текст Y к совокупности «глав» текста X, считая при этом Y новой «главой» и приписав ей какой-то номер Q. Затем находим оптимальный, хронологически правильный порядок всех «глав» получившейся «летописи». При этом мы найдем правильное место и для новой «главы» Y. В простейшем случае, построив для нее график K(Q,T), можно добиться, меняя ее положение относительно других «глав», чтобы этот график был как можно ближе к идеальному. То положение, которое Y займет среди других «глав», и следует признать за искомое. Тем самым мы датируем события, описанные в Y. Методика применима и тогда, когда рассматриваются не все имена, а только одно или несколько имен, например, какие-либо «знаменитые имена». Но в этом случае требуется дополнительный анализ, поскольку уменьшение числа используемых имен делает результаты неустойчивыми.
Методика была проверена на больших текстах с большим числом имен и с заранее известной достоверной датировкой. Во всех этих случаях эффективность метода подтвердилась.
6. Принцип дублирования частот
Методика обнаружения дубликатов
Настоящая методика является в некотором смысле частным случаем предыдущей методики, но ввиду важности для датировки мы выделили прием обнаружения дубликатов в отдельный пункт. Этот метод был предложен в [375]-[377], [379], [381], [385], [390]-[393], [396], [398].
Пусть интервал времени (А,В) описан в летописи X, разбитой на «главы-поколения» X(T). Пусть они в целом занумерованы хронологически верно, но среди них есть два дубликата, то есть две «главы», говорящие об одном и том же поколении, дублирующие, повторяющие друг друга. Рассмотрим простейшую ситуацию, когда одна и та же «глава» встречается в летописи X ровно два раза, а именно, с номером Q и с номером R. Пусть Q меньше R. Наша методика позволяет обнаружить и отождествить эти дубликаты. Ясно, что частотные графики K(Q,T) и K(R,T) имеют вид, показанный на рис. 3.39.
Первый график явно не удовлетворяет принципу затухания частот, поэтому нужно переставить «главы» внутри летописи X, чтобы добиться лучшего соответствия с теоретическим графиком. Все числа K(R,T) равны нулю, так как в «главе» X(R) нет ни одного «нового имени» — все они уже появились в X(Q). Ясно, что наилучшее совпадение с графиком на рис. 3.37 получится тогда, когда мы поместим эти два дубликата рядом или просто отождествим их.
Итак, если среди «глав» летописи, в целом занумерованных правильно, обнаружились две «главы», графики которых имеют приблизительно вид графиков на рис. 3.39, эти «главы», скорее всего, являются дубликатами, то есть говорят об одних и тех же событиях, и их следует отождествить. Все сказанное переносится на случай, когда есть несколько дубликатов — три и т. д.
Эта методика была проверена на экспериментальном материале. В качестве простого примера было взято издание «Истории Флоренции» Макьявелли 1973 года (Ленинград), снабженное развернутыми комментариями. Ясно, что комментарии можно рассматривать как серию «глав», дублирующих основной текст Макьявелли. Основной текст был разбит на «главы-поколения», что позволило построить квадратную частотную матрицу К{T}, охватывающую и комментарий к «Истории». Эта матрица имеет вид, условно показанный на рис. 3.40, где жирные наклонные отрезки состоят из клеток, заполненных максимумами. Это означает, что наша методика успешно обнаруживает известные дубликаты. В данном случае — комментарии к основному тексту «Истории» Макьявелли.