23 июня 2020
Самоучитель клингонского от Антиплагиата
Мы в компании Антиплагиат натуры творческие, любим вдохновляться и вдохновлять. Как думаете, что общего у Шекспира и популярного американского телесериала «Звездный путь»?
Все началось с того, что в нашем отделе исследователей возникла идея написать статью об алгоритме работы машинного переводчика с несуществующими языками. Мысль пришла при просмотре популярного телесериала «Звездный путь» («Star Trek»). Мы обучили наши алгоритмы по поиску переводных заимствований и сделали пару «английский – клингонский». Для оценки качества взяли известный отрывок из монолога Гамлета, – «Быть или не быть». Результат впечатляет, после нескольких итераций обучения наша модель работает превосходно.
Приглашаем погрузиться в мир машинного обучения, автокодировщиков, машинного перевода, анализа данных и семантики. Посмотрите, как мы осуществляли векторизацию слов и по вектору восстанавливали наиболее похожее слово из целевого языка, чем выравнивали векторные пространства, как обучали переводчик без учителя и выбирали модель перевода. Полный текст статьи можно прочитать здесь.
К слову, разработчики из отдела исследований выступали с переводными заимствованиями на международной конференции KDD-2019, где рассказали о том, как в Антиплагиате устроен поиск переводных заимствований в научных статьях и какие наработки применяет отдел исследователей в построении архитектуры модели.
Впрочем, всё это мы делаем не только удовольствия ради. Разработка универсального алгоритма поиска текстовых пересечений для любых заданных пар языков является приоритетной задачей компании Антиплагиат. На самый масштабный проект в истории компании мы даже выиграли грант от РВК.
Читайте новую статью «Самоучитель клингонского» в нашем корпоративном блоге на Habr!