11 сентября 2018
Модуль обнаружения парафраза в системе Антиплагиат
Пришёл сентябрь, наступил новый учебный год, а у нас вышла новая статья на habr.com! Встречайте: «Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз».
Мы уже писали в первой статье нашего корпоративного блога на habr.com о том, как был разработан алгоритм, который находит заимствования с английского языка. В новой статье мы задались целью обнаруживать самый эффективный способ искажения текста – парафраз, и, как следствие, разработать новый модуль Антиплагиата – систему обнаружения парафраза.
Юрий Чехович, автор статьи, расскуажет, как на примере рассказа «Муму» мы искажали текст так, чтобы его смысл сохранился, а предложения выглядели по-другому. Способов было множество: Заменяли текст синонимами, изменяли глаголы на существительные, делили предложения на более простые и много чего еще необычного! Читайте в статье, как в итоге мы поставили столь необычный и такой необходимый модуль!
Приятных результатов, кстати, у статьи целых два:
- в системе «Антиплагиат» появился новый модуль – парафраз
- первые результаты работы были показаны нашими специалистами в Лондоне, на одной из главных конференций по машинному обучению – KDD 2018