24 мая 2024
Исследователи Антиплагиата выступили на научной конференции в Финляндии
25 апреля 2024 года исследователи компании Антиплагиат представили два доклада на 35-ой конференции Ассоциации открытых инноваций FRUCT, которая состоялась в Финляндии, в университете Тампере.
Конференция FRUCT (Finnish-Russian University Cooperation in Telecommunication) – это научное мероприятие для встречи академического сообщества с крупным бизнесом и разработчиками проектов. Конференция привлекла самых активных и талантливых участников, которые выступили с презентациями своих научно-исследовательских работ.
Организаторы конференции: Открытая Иновационная Ассоциация FRUCT и Университет Тампере.
Исследователи компании Антиплагиат представили два доклада.
Первый доклад на тему «Метод обнаружения заимствованных изображений для больших баз данных/коллекций» представляла Мариам Каприелова, руководитель команды Computer Vision.
Авторы поделились результатами экспериментов по оценке качества и производительности разработанной системы: для коллекции изображений, созданных без систем автоматической отрисовки полученное качество = 98%, а для изображений рукописных эссе качество = 59%. Время обработки таких запросов для коллекции из 59 миллионов объектов составляет примерно полминуты.
Данная разработка может быть масштабирована и использована для промышленных задач, требующих быстрой проверки тысяч изображений по миллионным коллекциям потенциальных источников.
Второй доклад на тему: «Влияние мультиязычности и токенизации на статистический машинный перевод» представил Алидар Асваров, NLP разработчик-исследователь компании Антиплагиат.
Отмечалось, что многоязычные системы нейронного машинного перевода достигли высокого качества, особенно для языков с ограниченными ресурсами, однако статистические системы машинного перевода не обучались и не проверялись в аналогичных многоязычных условиях.
Многоязычная статистическая система машинного перевода определяется как система «многие к одному» и способна осуществлять перевод с любого из заранее определенных языков на один целевой язык.
В основу исследования легло влияние многоязычного формата обучения на качество перевода по сравнению с обычной системой машинного перевода «один-к-одному» и его воздействие на родственные языки с разным объемом обучающих данных.
Исследование проводилось на нескольких языках разных языковых семей. Отмечено влияние различных токенизаторов и методов предварительной обработки текста. В частности, сравнивался стандартный токенизатор Moses с токенизатором SentencePiece, а также специальными сегментаторами слов для китайского и японского языков.
Выступления исследователей компании Антиплагиат можно посмотреть на Youtube-канале конференции FRUCT.