17 декабря 2019
Cовместный проект ФСИ и Антиплагиата: итоги работы
Компания Антиплагиат представила результаты по выполнению НИОКР в рамках конкурса «Развитие-НТИ» на реализацию планов мероприятий («дорожных карт») Национальной технологической инициативы (НТИ) «Нейронет». В течение 2019 года компания Антиплагиат работала над реализацией проекта «Развитие технологии обнаружения переводных заимствований, основанной на методах анализа больших текстовых данных» (номер заявки НТИ-49378). Работа проводилась при финансовой поддержке Фонда содействия инновациям.
За время работы над проектом мы добились отличных результатов: поисковый индекс был пополнен на 24,6 млн документов из различных коллекций, за счет чего мы существенно расширили базу источников, по которым происходит проверка заимствований.
Также в рамках проекта были представлены результаты работы над переводными заимствованиями. Исследования показывают, что переводные заимствования становятся все более популярным способом скрыть попытки некорректного использования чужого текста. Такой тип заимствований особенно часто встречается в студенческих и диссертационных работах. Следует отметить, что, в отличие от поиска заимствований в рамках одного языка, поиск переводных заимствований – это чрезвычайно наукоемкая задача, не имеющая в настоящий момент решения, которое удовлетворяло бы требованиям промышленного применения. Подробнее узнать о том, каким образом мы ищем заимствования в текстах, можно узнать на нашем корпоративном блоге Habr.com.
За время проекта нашей команде исследователей удалось существенно повысить качество машинного перевода и создать уникальный работающий инструмент по поиску переводных заимствований для следующих пар: казахский-русский, казахский-английский и английский-русский. Теперь наши клиенты смогут находить заимствования в текстах работ на казахском, английском и русском языках по расширенной базе источников при помощи новых инструментов поиска переводных заимствований, и точность поиска составляет более 93%.
По итогам исследовательской работы в 2019 году компания Антиплагиат зарегистрировала два программных продукта: Модуль поиска переводных текстовых заимствований с английского на казахский язык (Модуль поиска «Переводные заимствования KkEn») и Модуль поиска переводных текстовых заимствований с русского на казахский язык (Модуль поиска «Переводные заимствования KkRu»). Новые программные продукты вызвали огромный интерес среди зарубежных клиентов, к концу 2019 года новинки используют в своей работе более 50 клиентов из стран СНГ.
Компания Антиплагиат продолжает работу над созданием новых языковых пар для переводных заимствований. Благодаря поддержке Фонда содействия инновациям компания провела большую научную работу и получила возможность использовать результат для предоставления услуг высокого уровня своим клиентам, большинство которых составляют ВУЗы и НИИ. Тем самым компания сделала очередной вклад в развитие российской науки и образования. В 2020 году мы планируем расширить результаты работы на многие другие языковые пары.