Экономия, как мы узнали из “Рассказа Орангутана”, означает здесь экономичность объяснения. В эволюции (животного ли, манускрипта ли) самым экономичным является объяснение, подразумевающее наименьшее число эволюционных изменений. Если два текста объединены общим признаком, самое экономичное объяснение будет гласить: оба текста унаследовали этот признак от общего предка. Конечно, и у этого правила есть исключения, однако чаще всего оно верно. Метод парсимонии – по крайней мере в теории – сравнивает все возможные деревья и выбирает то, в котором количество изменений минимально.
Когда мы сравниваем деревья по их экономичности, некоторые виды признаков оказываются бесполезными. Признаки, уникальные для манускрипта или вида животного, неинформативны. В методе поиска ближайшего соседа такие признаки учитываются, однако метод парсимонии целиком их игнорирует. Метод парсимонии опирается на информативные признаки, то есть такие, которые наблюдаются более чем в одном манускрипте. Предпочтительным древом является объясняющее максимальное количество информативных признаков общим происхождением. В строках Чосера пять таких информативных признаков. Четыре из них делят манускрипты на следующие группы:
{“Британская библиотека” + “Эджертон”} и (“Крайст-Черч” + “Хенгурт”}
Эти признаки выделены первой, третьей, седьмой и восьмой вертикальными линиями. Пятый признак – косая черта – выделен двенадцатой вертикальной линией. По этому признаку манускрипты подразделяются на другие группы:
{“Британская библиотека” + “Хенгурт”} и {“Крайст-Черч” + “Эджертон”}
Полученные результаты противоречат друг другу. Мы не можем построить древо, в котором каждое изменение отображалось бы лишь один раз. Самым приемлемым окажется древо, изображенное ниже (заметьте – оно неукорененное). Эта схема сокращает противоречия до минимума: мы повторно учитываем лишь один признак – косую черту.
Вообще-то я не уверен, что мы сделали правильное предположение. В текстах часто встречаются совпадения и реверсии, особенно если смысл строк при этом не меняется. Средневековый переписчик наверняка не испытывал угрызений совести, изменяя написание, и еще меньше его волновали вставки или удаления знаков, например косой черты. В этом случае информативнее такие изменения, как перестановка слов. В генетике аналогами таких изменений являются “редкие геномные изменения”: крупные вставки, делеции и дупликации ДНК. Мы можем оценить информативность, присвоив большее или меньшее значение (вес) различным типам признаков. Недостоверные или слишком частые изменения при подсчете будут иметь меньший вес. А редкие изменения, которые служат надежными показателями родства, – больший вес. Повышенный вес признака говорит о том, что мы не хотим учитывать его дважды. Таким образом, наиболее экономное древо – то, которое имеет наименьший общий вес.
Метод парсимонии широко используется для поиска эволюционных деревьев. Но в том случае, когда конвергенций и реверсий слишком много – а это случается и с последовательностями ДНК, и с текстами Чосера, – метод парсимонии может оказаться недостоверным. Эта проблема известна как “эффект притяжения длинных ветвей”.
Кладограммы – как укорененные, так и неукорененные – отражают лишь порядок ветвления. Филограммы, или филогенетические деревья, похожи на кладограммы, но в них длина ветвей несет дополнительную информацию. Обычно длина ветвей отражает эволюционное расстояние: длинные ветви обозначают крупные изменения, а короткие – мелкие. На основе первой строки “Кентерберийских рассказов” можно построить следующую филограмму.