6 июня 2018
Как Антиплагиат ищет документы в интернете?
За окном июнь, многие наслаждаются летом и отдыхают в отпусках. А у нас в компании Антиплагиат работа кипит – подготовили новую статью на Habr.com!
Тема статьи очень интригующая: «Теория большой свалки: ищем научные документы на просторах интернета». Почему именно свалка? В рунете уже более 300 млн документов только лишь на русском языке, и авторы статьи – исполнительный директор Юрий Чехович и руководитель группы обработки данных Андрей Хазов – задались вполне логичным вопросом: «А много ли в этом океане информации действительно полезных документов?».
Для ответа на этот вопрос авторы поставили две задачи:
- Создать фильтр научности;
- Реализовать средство рубрикации научных документов.
Конечно, для обработки такого массива данных привлекать человеческие ресурсы – слишком дорогое удовольствие! Было решено использовать технологии машинного обучения. В качестве классификатора фильтра «научности» использовался алгоритм случайного леса (Random forest). Для построения тематического классификатора – подход, основанный на тематическом моделировании (Тopic modeling), чтобы определить, к какой теме принадлежит документ. Для улучшения качества разработанного алгоритма авторы добавили байесовский Naive Bayes классификатор.
Что получилось? В результате авторы узнали не только тематическую структуру проиндексированного интернета, но и сделали дополнительную функциональность в системе «Антиплагиат», с помощью которой можно классифицировать статью или другой научный документ сразу по трем тематическим рубрикаторам.
Читайте подробнее эту статью в нашем корпоративном блоге!