29 марта 2019
Триллион маленьких шинглов Антиплагиата
Как вы уже знаете, Антиплагиат – это специализированный поисковик, не такой большой как Google или Yandex, но достаточно объёмный. Сегодня на сайте Habr.com мы опубликовали статью о том, как делали для нашего поисковика свой индекс, который учитывает все особенности поиска.
«Триллион маленьких шинглов» назвал статью автор, Павел Ботов, руководитель отдела разработки компании Антиплагиат, к.ф.- м.н.
Вы узнаете, что такое шинглы и зачем их искать, погрузитесь в наш многолетний опыт поиска, удовлетворяющего всем критериям, индекса. Как до 2010-го года мы задействовали SQL-базу данных, почему потом наш взор пал на BerkeleyDB, зачем в 2014-м пробовали, но не внедряли LMDB, LevelDB и RocksDB. И, наконец, поймёте, почему мы стали развивать свой индекс и сосредоточились на его совершенствовании.
Более сведущие читатели увидят красоту некоторых решений и поймут, почему мы используем только чистый C#, только .Net и пишем на нём даже самые сложные алгоритмы поиска.
Читайте полностью статью в нашем корпоративном блоге на Habr.com, делитесь комментариями, будем рады ответить на вопросы!