22 октября 2020
Первые результаты Антиплагиата по гранту РВК
В декабре 2019 года проект компании Антиплагиат «Пан-языковой анализ больших текстовых коллекций на естественных языках» стал победителем конкурсного отбора компаний-лидеров в рамках реализации федерального проекта «Цифровые технологии» национальной программы «Цифровая экономика Российской Федерации». В июне 2020 года после заключения контракта компания приступила к реализации проекта. Сейчас после окончания первого полноценного этапа работ есть возможность говорить о первых результатах.
Проект в целом предусматривает существенное развитие функционала системы «Антиплагиат» в части кросс-языкового поиска. Стратегическая цель разработки — сделать так, чтобы система обнаруживала заимствования вне зависимости от того с какого на какой язык был осуществлен перевод, а также от того сделан он человеком или выполнен машинным переводчиком. В последние годы системы машинного перевода вышли на новый уровень и стали постоянным помощником ученых и студентов. Вместе с тем, серьезно выросло количество попыток выдать переводной текст за оригинальный. При этом, эти попытки не ограничиваются очевидным направлением перевода с английского на национальный. Регулярно обнаруживаются переводы с русского на национальные языки стран СНГ. Кроме того, «донорами» могу выступать и другие языки: китайский, немецкий, французский и т.д.
Это означает, что система должна обнаруживать перевод с любого языка на любой среди достаточно большого количества языков. Мы решили ограничиться сотней самых распространенных в мире языков. Напомним, что в 2017 году Антиплагиат самостоятельно разработал и успешно внедрил в промышленное решение модуль поиска переводных заимствований в паре «английский-русский». Здесь важно отметить, что этот модуль оказался первым промышленным решением в области обнаружения переводных заимствований. При том, что в мире достаточно много исследований в этой области, большей частью они не ориентированы на получение решений, способных работать в условиях высоких нагрузок, то есть обрабатывать сотни документов в минуту, при сопоставлении их с многомиллионными коллекциями потенциальных источников. Далее Антиплагиат разработал решения для казахского, киргизского и польского языков.
Сейчас мы подошли к завершению исследования новейших технологий мультиязычной векторизации текстовых фрагментов. Современные алгоритмы машинного обучения позволят сравнивать смысловое содержание текстов на ста языках без промежуточного этапа перевода. В частности, это семейство подходов на основе BERT (Bidirectional Encoder Representations from Transformers) – наиболее обсуждаемая сейчас в NLP-сообществе тема. Исследовательская группа нашей компании начала активно следить за разработками в этом направлении с 2017 года, что позволило разработать модуль сравнения текстов на ста языках и запустить активную фазу его испытаний уже сейчас.