Мы используем cookies («куки») и подобные им технологии для того, чтобы у Вас сложилось наилучшее впечатление о работе нашего сайта. Если Вы продолжаете использовать наш сайт, это означает, что Вы согласны с использованием cookies. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими Политиками

Реестр отечественного ПО При поддержке НТИ

29 марта 2019

Триллион маленьких шинглов Антиплагиата

Как вы уже знаете, Антиплагиат – это специализированный поисковик, не такой большой как Google или Yandex, но достаточно объёмный. Сегодня на сайте Habr.com мы опубликовали статью о том, как делали для нашего поисковика свой индекс, который учитывает все особенности поиска. 

«Триллион маленьких шинглов» назвал статью автор, Павел Ботов, руководитель отдела разработки компании Антиплагиат, к.ф.- м.н.

Вы узнаете, что такое шинглы и зачем их искать, погрузитесь в наш многолетний опыт поиска, удовлетворяющего всем критериям, индекса. Как до 2010-го года мы задействовали SQL-базу данных, почему потом наш взор пал на BerkeleyDB, зачем в 2014-м пробовали, но не внедряли LMDB, LevelDB и RocksDB. И, наконец, поймёте, почему мы стали развивать свой индекс и сосредоточились на его совершенствовании.

Более сведущие читатели увидят красоту некоторых решений и поймут, почему мы используем только чистый C#, только .Net и пишем на нём даже самые сложные алгоритмы поиска.

Читайте полностью статью в нашем корпоративном блоге на Habr.com, делитесь комментариями, будем рады ответить на вопросы!

Поделиться публикацией