Главная страница Новости Поиск заимствований в Антиплагиате: взгляд изнутри

This news is not available in the selected language. To view the news which are available for this language, please go to the News page

14 ноября 2018

Поиск заимствований в Антиплагиате: взгляд изнутри

Опубликована наша пятая статья на сайте успешных IT-компаний – Habr.com!

На этот раз Андрей Ивахненко, руководитель отдела внедрения и эксплуатации, описал поисковые технологии Антиплагиата. Андрей рассказывает, как быстро найти абзац текста среди сотен миллионов статей, во что превращается документ после загрузки в систему Антиплагиат и как проиндексировать «не все, но достаточно».

Прочитав статью, вы узнаете:

Почему система написана на C# и python и использует PostgreSQL, и MongoDB;
Зачем текст переводить в символы;
Почему классический поиск заимствований – основа сервиса, концептуально работающая до сих пор;
Почему ограничили форматы загрузки документов для частных клиентов до pdf и txt;
В чём сложность обработки doc-формата и как помочь ему «выйти на пенсию»;
Что такое хеш, шинглы, черепички и ревизии;
И почему Антиплагиат принципиально не удаляет документы из индекса рунета.

Заинтриговали? Читайте ответы в новой статье на habr.com!

Habr.com

наука

Поделиться публикацией