24 ноября 2020
Определяем язык текста. Сложный случай
А вы знали, что можно писать статью на русском языке, а на самом деле она будет написана на английском? Или, например, есть такие авторы, которые весь текст готовы заполнить большим количеством формул, аббревиатур и схем, лишь бы не заподозрили плагиат в его работе.
Некоторые тексты, как живые, искусно сопротивляются обработке. Но разработчики в компании Антиплагиат не дремлют. Вот и на этот раз для отлавливания таких «хитрых» текстов они разработали эвристический алгоритм, который использует многократный запуск CLD2, определение языка слов с помощью словарей и статистические методы.
Анна Навроцкая, разработчик из отдела разработки компании Антиплагиат, по крупицам собрала все наработки, распределила все шаги определения языка и написала статью в нашем корпоративном блоге на Habr.com. Получилась, как всегда, интересная и познавательная статья: «Определяем язык текста. Сложный случай».
Здесь и описание существующих решений, и борьба с омоглифами, и поиск единичных вставок, и доопределение языка токенов. В общем, обо всех тонкостях определения языка читайте в нашем корпоративном блоге на Habr.com. Приятного чтения!