5 июля 2019
Терпение и труд весь текст извлекут
![](https://antiplagiat.ru/wp-content/uploads/2023/02/bc2aae14-f4a5-4800-9630-e4165d1bd985.png)
«Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.»
Наш старший разработчик Арам Таранян написал статью о том, как Антиплагиат справляется с такой, казалось бы, нетривиальной задачей, как извлечение текстов из документов, которые каждый день загружаются в систему «Антиплагиат».
Подробнее читайте на нашем корпоративном блоге на Habr.com.