Завершён важный этап проекта по гранту РВК

В конце октября 2020 года компания Антиплагиат завершила важный этап проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках», реализация которого происходит в рамках федерального проекта «Цифровые технологии» национальной программы «Цифровая экономика Российской Федерации».

Формально этап называется «Создание программного кода библиотеки для категоризации больших массивов мульти-языковых текстовых данных на основе анализа семантической близости документов». Если говорить простым языком, то речь идет об алгоритме, который может определить тематику документа на произвольном языке. Этот алгоритм является очень важной составной частью всего проекта, в частности, его реализация позволит искать тематически близкие документы вне зависимости от того, на каком языке они написаны.

С помощью анализа большого потока документов система «Антиплагиат» сможет выделять статьи, посвященные исследованиям, например, литий-ионных аккумуляторов, на английском, французском, русском, китайском и даже фарси.

«Важной особенностью этого этапа является то, что работа выполнялась специалистами Лаборатории машинного интеллекта МФТИ – говорит исполнительный директор компании Антиплагиат Юрий Чехович – Нам удалось построить сотрудничество с ведущей командой в области тематического моделирования в мире и в самые сжатые сроки получить промышленное решение, не имеющее аналогов в мире».

«Шесть лет назад, в 2014 году, наша исследовательская группа стартовала проект с открытым кодом BigARTM. На сегодняшний день это самая быстрая в мире свободно доступная библиотека тематического моделирования, позволяющая обрабатывать миллионы документов. – говорит Руководитель Лаборатория машинного интеллекта МФТИ профессор РАН Константин Воронцов, – Недавно наша лаборатория выпустила ещё одну открытую библиотеку — TopicNet. Она расширяет возможности BigARTM и делает её более лёгкой в использовании. Мы постоянно консультируем пользователей наших библиотек и сами решаем практические задачи текстовой аналитики. Работать с большими текстовыми данными нам не привыкать. Проект, который мы выполняем по заказу компании Антиплагиат, интересен тем, что приходится работать с сотней языков, но при этом в команде нет ни одного лингвиста. Современные технологии позволяют делать то, что ещё десять лет назад представлялось чудом.»

Сотрудничество компании Антиплагиат с Лабораторией машинного интеллекта МФТИ продолжится и на следующих этапах выполнения проекта «Пан-языковой анализ больших текстовых коллекций на естественных языках». Это позволяет рассчитывать на новые опережающие результаты и в будущем.

Поделиться публикацией