Поиск заимствований в Антиплагиате: взгляд изнутри

Опубликована наша пятая статья на сайте успешных IT-компаний – Habr.com!

На этот раз Андрей Ивахненко, руководитель отдела внедрения и эксплуатации, описал поисковые технологии Антиплагиата. Андрей рассказывает, как быстро найти абзац текста среди сотен миллионов статей, во что превращается документ после загрузки в систему Антиплагиат и как проиндексировать «не все, но достаточно».

Прочитав статью, вы узнаете:

Почему система написана на C# и python и использует PostgreSQL, и MongoDB;
Зачем текст переводить в символы;
Почему классический поиск заимствований – основа сервиса, концептуально работающая до сих пор;
Почему ограничили форматы загрузки документов для частных клиентов до pdf и txt;
В чём сложность обработки doc-формата и как помочь ему «выйти на пенсию»;
Что такое хеш, шинглы, черепички и ревизии;
И почему Антиплагиат принципиально не удаляет документы из индекса рунета.

Заинтриговали? Читайте ответы в новой статье на habr.com!

Habr.com

наука

Поделиться публикацией