Как Антиплагиат ищет документы в интернете?

За окном июнь, многие наслаждаются летом и отдыхают в отпусках. А у нас в компании Антиплагиат работа кипит – подготовили новую статью на Habr.com!

Тема статьи очень интригующая: «Теория большой свалки: ищем научные документы на просторах интернета». Почему именно свалка? В рунете уже более 300 млн документов только лишь на русском языке, и авторы статьи – исполнительный директор Юрий Чехович и руководитель группы обработки данных Андрей Хазов – задались вполне логичным вопросом: «А много ли в этом океане информации действительно полезных документов?».

Для ответа на этот вопрос авторы поставили две задачи:

Создать фильтр научности;
Реализовать средство рубрикации научных документов.

Конечно, для обработки такого массива данных привлекать человеческие ресурсы – слишком дорогое удовольствие! Было решено использовать технологии машинного обучения. В качестве классификатора фильтра «научности» использовался алгоритм случайного леса (Random forest). Для построения тематического классификатора – подход, основанный на тематическом моделировании (Тopic modeling), чтобы определить, к какой теме принадлежит документ. Для улучшения качества разработанного алгоритма авторы добавили байесовский Naive Bayes классификатор.

Что получилось? В результате авторы узнали не только тематическую структуру проиндексированного интернета, но и сделали дополнительную функциональность в системе «Антиплагиат», с помощью которой можно классифицировать статью или другой научный документ сразу по трем тематическим рубрикаторам.

Читайте подробнее эту статью в нашем корпоративном блоге!

наука

образование

Поделиться публикацией