Новая лексическая база данных IE-CoR, составленная в соответствии с методологией Московской школы, является шагом вперед. Набор данных IE-CoR состоит из списков слов из 170 пунктов для 161 лекта. Лексикографическое качество высокое, благодаря международной команде из более чем 80 лингвистов, работающих в течение четырех лет. IE-CoR отражает методологию, которую Московская школа исторической лингвистики отстаивала на протяжении почти 15 лет. Это включает в себя ключевые принципы из Kassian et al. (2010) и принятые в Глобальной лексикостатистической базе данных. Эти принципы значительно повышают качество результирующего набора данных. Однако в онлайн-дополнении Heggarty et al. утверждается, что «протоколы IE-CoR и определения значений радикально отличаются» от Kassian et al. (2010). Heggarty et al. предлагают морфологическую простоту в качестве критерия выбора основных слов. Этот критерий предполагает, что более простые слова имеют селективное преимущество, но не имеет подтверждающих примеров. Были проверены пять списков слов IE-CoR (болгарский, хеттский, готский, цаконский греческий, кашмири). Результаты для болгарского языка были отличными, ошибок в проверенных примерно 100 концепциях не обнаружено. Результаты хеттского языка были приемлемыми, хотя были отмечены некоторые ошибки. Готский список был немного смещен в сторону этимологических эквивалентов по сравнению с синонимами, поддерживаемыми корпусом. Цаконский греческий и кашмири страдали от необнаруженных заимствований. Эти заимствования исказили их положение на филогенетических деревьях. Цаконский греческий, находившийся под влиянием разговорного греческого языка на протяжении тысячелетий, содержит много необнаруженных заимствований. Список IE-CoR не отмечает эти заимствования, что делает его «в основном бесполезным для филогенетических целей». Список кашмири содержит необнаруженные заимствования из индоарийских языков. Эти необнаруженные заимствования неправильно поместили кашмири в дерево Heggarty et al. Несмотря на улучшения, классификация дерева статистически слаба. Это также противоречит установленным знаниям, что делает его ненадежной основой для дальнейших исследований.
Лексическая база данных ie-cor: методология московской школы и анализ ошибок
Источники
Nature
Читайте больше новостей по этой теме:
Вы нашли ошибку или неточность?
Мы учтем ваши комментарии как можно скорее.