Мы используем cookies («куки») и подобные им технологии для того, чтобы у Вас сложилось наилучшее впечатление о работе нашего сайта. Если Вы продолжаете использовать наш сайт, это означает, что Вы согласны с использованием cookies. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими Политиками

Реестр отечественного ПО При поддержке НТИ

14 ноября 2018

Поиск заимствований в Антиплагиате: взгляд изнутри

Опубликована наша пятая статья на сайте успешных IT-компаний – Habr.com!

На этот раз Андрей Ивахненко, руководитель отдела внедрения и эксплуатации, описал поисковые технологии Антиплагиата. Андрей рассказывает, как быстро найти абзац текста среди сотен миллионов статей, во что превращается документ после загрузки в систему Антиплагиат и как проиндексировать «не все, но достаточно».

Прочитав статью, вы узнаете:

  • Почему система написана на C# и python и использует PostgreSQL, и MongoDB;
  • Зачем текст переводить в символы;
  • Почему классический поиск заимствований – основа сервиса, концептуально работающая до сих пор;
  • Почему ограничили форматы загрузки документов для частных клиентов до pdf и txt;
  • В чём сложность обработки doc-формата и как помочь ему «выйти на пенсию»;
  • Что такое хеш, шинглы, черепички и ревизии;
  • И почему Антиплагиат принципиально не удаляет документы из индекса рунета.

Заинтриговали? Читайте ответы в новой статье на habr.com!

Поделиться публикацией