Мы используем cookies («куки») и подобные им технологии для того, чтобы у Вас сложилось наилучшее впечатление о работе нашего сайта. Если Вы продолжаете использовать наш сайт, это означает, что Вы согласны с использованием cookies. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими Политиками

Реестр отечественного ПО При поддержке НТИ

5 июля 2019

Терпение и труд весь текст извлекут

«Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.»

Наш старший разработчик Арам Таранян написал статью о том, как Антиплагиат справляется с такой, казалось бы, нетривиальной задачей, как извлечение текстов из документов, которые каждый день загружаются в систему «Антиплагиат».

Подробнее читайте на нашем корпоративном блоге на Habr.com.

Поделиться публикацией