14 ноября 2018
Поиск заимствований в Антиплагиате: взгляд изнутри
Опубликована наша пятая статья на сайте успешных IT-компаний – Habr.com!
На этот раз Андрей Ивахненко, руководитель отдела внедрения и эксплуатации, описал поисковые технологии Антиплагиата. Андрей рассказывает, как быстро найти абзац текста среди сотен миллионов статей, во что превращается документ после загрузки в систему Антиплагиат и как проиндексировать «не все, но достаточно».
Прочитав статью, вы узнаете:
- Почему система написана на C# и python и использует PostgreSQL, и MongoDB;
- Зачем текст переводить в символы;
- Почему классический поиск заимствований – основа сервиса, концептуально работающая до сих пор;
- Почему ограничили форматы загрузки документов для частных клиентов до pdf и txt;
- В чём сложность обработки doc-формата и как помочь ему «выйти на пенсию»;
- Что такое хеш, шинглы, черепички и ревизии;
- И почему Антиплагиат принципиально не удаляет документы из индекса рунета.
Заинтриговали? Читайте ответы в новой статье на habr.com!