Мы используем cookies («куки») и подобные им технологии для того, чтобы у Вас сложилось наилучшее впечатление о работе нашего сайта. Если Вы продолжаете использовать наш сайт, это означает, что Вы согласны с использованием cookies. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими Политиками

Реестр отечественного ПО При поддержке НТИ

24 мая 2024

Исследователи Антиплагиата выступили на научной конференции в Финляндии

25 апреля 2024 года исследователи компании Антиплагиат представили два доклада на 35-ой конференции Ассоциации открытых инноваций FRUCT, которая состоялась в Финляндии, в университете Тампере.

Конференция FRUCT (Finnish-Russian University Cooperation in Telecommunication) – это научное мероприятие для встречи академического сообщества с крупным бизнесом и разработчиками проектов. Конференция привлекла самых активных и талантливых участников, которые выступили с презентациями своих научно-исследовательских работ.

Организаторы конференции: Открытая Иновационная Ассоциация FRUCT и Университет Тампере.

Исследователи компании Антиплагиат представили два доклада.

Первый доклад на тему «Метод обнаружения заимствованных изображений для больших баз данных/коллекций» представляла Мариам Каприелова, руководитель команды Computer Vision.

Авторы поделились результатами экспериментов по оценке качества и производительности разработанной системы: для коллекции изображений, созданных без систем автоматической отрисовки полученное качество = 98%, а для изображений рукописных эссе качество = 59%. Время обработки таких запросов для коллекции из 59 миллионов объектов составляет примерно полминуты.

Данная разработка может быть масштабирована и использована для промышленных задач, требующих быстрой проверки тысяч изображений по миллионным коллекциям потенциальных источников.

Второй доклад на тему: «Влияние мультиязычности и токенизации на статистический машинный перевод» представил Алидар Асваров, NLP разработчик-исследователь компании Антиплагиат.

Отмечалось, что многоязычные системы нейронного машинного перевода достигли высокого качества, особенно для языков с ограниченными ресурсами, однако статистические системы машинного перевода не обучались и не проверялись в аналогичных многоязычных условиях.

Многоязычная статистическая система машинного перевода определяется как система «многие к одному» и способна осуществлять перевод с любого из заранее определенных языков на один целевой язык.

В основу исследования легло влияние многоязычного формата обучения на качество перевода по сравнению с обычной системой машинного перевода «один-к-одному» и его воздействие на родственные языки с разным объемом обучающих данных.

Исследование проводилось на нескольких языках разных языковых семей. Отмечено влияние различных токенизаторов и методов предварительной обработки текста. В частности, сравнивался стандартный токенизатор Moses с токенизатором SentencePiece, а также специальными сегментаторами слов для китайского и японского языков.

Выступления исследователей компании Антиплагиат можно посмотреть на Youtube-канале конференции FRUCT.

Поделиться публикацией