5 июля 2019
Терпение и труд весь текст извлекут
«Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.»
Наш старший разработчик Арам Таранян написал статью о том, как Антиплагиат справляется с такой, казалось бы, нетривиальной задачей, как извлечение текстов из документов, которые каждый день загружаются в систему «Антиплагиат».
Подробнее читайте на нашем корпоративном блоге на Habr.com.