Мы используем cookies («куки») и подобные им технологии для того, чтобы у Вас сложилось наилучшее впечатление о работе нашего сайта. Если Вы продолжаете использовать наш сайт, это означает, что Вы согласны с использованием cookies. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими Политиками

Реестр отечественного ПО При поддержке НТИ

6 июня 2018

Как Антиплагиат ищет документы в интернете?

За окном июнь, многие наслаждаются летом и отдыхают в отпусках. А у нас в компании Антиплагиат работа кипит – подготовили новую статью на Habr.com!

Тема статьи очень интригующая: «Теория большой свалки: ищем научные документы на просторах интернета». Почему именно свалка? В рунете уже более 300 млн документов только лишь на русском языке, и авторы статьи – исполнительный директор Юрий Чехович и руководитель группы обработки данных Андрей Хазов – задались вполне логичным вопросом: «А много ли в этом океане информации действительно полезных документов?».

Для ответа на этот вопрос авторы поставили две задачи:

  1. Создать фильтр научности;
  2. Реализовать средство рубрикации научных документов.

Конечно, для обработки такого массива данных привлекать человеческие ресурсы – слишком дорогое удовольствие! Было решено использовать технологии машинного обучения. В качестве классификатора фильтра «научности» использовался алгоритм случайного леса (Random forest). Для построения тематического классификатора – подход, основанный на тематическом моделировании (Тopic modeling), чтобы определить, к какой теме принадлежит документ. Для улучшения качества разработанного алгоритма авторы добавили байесовский Naive Bayes классификатор.

Что получилось? В результате авторы узнали не только тематическую структуру проиндексированного интернета, но и сделали дополнительную функциональность в системе «Антиплагиат», с помощью которой можно классифицировать статью или другой научный документ сразу по трем тематическим рубрикаторам.

Читайте подробнее эту статью в нашем корпоративном блоге!

Поделиться публикацией