Мы используем cookies («куки») и подобные им технологии для того, чтобы у Вас сложилось наилучшее впечатление о работе нашего сайта. Если Вы продолжаете использовать наш сайт, это означает, что Вы согласны с использованием cookies. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими Политиками

Главная страница Обнаружение заимствований Главные функции системы «Антиплагиат»

Главные функции системы «Антиплагиат»

24.09.2024

Это надо знать

Прежде чем пуститься в разъяснения о работе «Антиплагиата», пропишем базу.

Поиск совпадений двух текстов в системе происходит с помощью алгоритма шинглов. Что это такое? Шинглы — это небольшие фрагменты длиной в несколько слов. Система разбивает на них текст, и это позволяет анализировать текст на уровне фраз. Используя шинглы, система сравнивает проверяемый текст с уже существующими. При совпадении нескольких шинглов у двух документов можно считать, что документы пересекаются. Чем больше шинглов совпадает, тем больше одинакового текста в этой паре документов.

Второй важный элемент в проверке работ — это векторизация слов. Векторизация — преобразование данных из их исходного формата (например, текста) в векторы действительных чисел, которые понятны моделям машинного обучения.

Векторное представление текстовых фрагментов позволяет для каждого текстового фрагмента поставить в соответствие точку в некотором пространстве очень высокой размерности. Если точки двух текстовых фрагментов близки в этом пространстве, значит, и сами текстовые фрагменты были близки по смыслу. Уже классическим стал пример king-man + woman = queen, который описывает данную особенность векторов.

Выявление переводных заимствований

Один из популярных способов позаимствовать чужой текст — использовать перевод другого языка. Сделать это достаточно просто благодаря онлайн-переводчикам и огромным базам данных с источниками на разных языках. Далеко не все детекторы плагиата умеют распознавать переводные заимствования, поэтому долгое время этот способ оставался рабочим. При этом проблема плохо решается применением лежащих на поверхности методов, таких как обратный перевод с последующей проверкой на плагиат или же использование мультиязычных векторных представлений слов или текстовых фрагментов.

Антиплагиат разработал и предоставил пользователям первое промышленное решение по обнаружению переводных заимствований с английского языка на русский в 2017 году. Идея решения заключается в разделении поиска на два этапа: на первом осуществляется поиск источников-кандидатов с помощью хорошо изученного алгоритма шинглов, для которого строится индекс на кластерах переведённых слов, а на втором — алгоритмами, основанными на векторных представлениях фрагментов текстов, производится детальное сопоставление проверяемого текста и текстов источников-кандидатов. Очередным шагом в развитии этого направления стало расширение к 2022 году кросс-языкового поиска до 100 языков.

Выявление машинно сгенерированного текста

Самым нашумевшим инструментом для повышения оригинальности стала машинная генерация, то есть создание искусственных текстов с помощью сервисов вроде ChatGPT. Если говорить о детектировании, то в общей постановке это очень непростая задача. Генеративные сети развиваются такими темпами, что, вероятно, уже в недалёком будущем невозможно будет создать детектор, который безошибочно отличал бы текст искусственный от человеческого. Однако в случае учебных и научных документов задачу детектирования удаётся решать с очень высокой точностью. Помогает то, что анализируемые документы обычно довольно объёмные, а генеративным моделям сложно создавать качественные большие тексты, им легче даются короткие.

Работая много лет с машинным обучением, команда Антиплагиата накопила значительную экспертизу в области выявления искусственных текстов. Это позволило нам, как только проблема стала актуальной, быстро предложить пользователям работающий и эффективный инструмент. На данный момент доля ошибок классификации не превышает 1%.

Поиск заимствованных изображений

Многие исследования включают в себя изображения. Причём это не просто иллюстрации, которые помогают понять текст, а главная часть исследования: в них заключён полученный результат.

Количество научных публикаций с заимствованными изображениями оценивается экспертами в единицы процентов от общего числа статей. В мировом масштабе это огромные величины. Но функция выявления совпадающих изображений отсутствует практически во всех сервисах детекции плагиата, а у обычных поисковиков, таких как Google или «Яндекс», функция поиска изображений не подходит для проверки научных документов.

В 2022 году специалисты Антиплагиата создали решение для поиска заимствованных изображений. Система распознаёт заимствование, даже если в попытках скрыть заимствование автор исказил его: повернул, отзеркалил, обрезал по краю, изменил цветовую гамму, соотношение длин сторон и прочее.

Выделение структуры документов

Важная особенность учебных и научных документов — это наличие структуры. Из-за огромного количества типов документов, особенностей разных языков, традиций, присущих различным научным направлениям, не существует правил, которые бы её чётко определяли. Тем не менее в большинстве работ можно найти типичные элементы: титульные листы, оглавление, приложения, библиографию и основную часть документа. Это позволяет в перспективе по-разному учитывать совпадения в различных частях документа. Например, важно отличать совпадения текста в обзоре литературы и в описании результатов или в обсуждении научной статьи. В одном случае совпадение будет означать плагиат, в другом — следование правилам оформления работы.

Для решения этой задачи формируется признаковое описание каждой строчки документа, добавляется информация о вхождении в документ слов, которые помогают определить границы разделов. Дополнительно могут использоваться структурные ограничения, учитывающие типовой порядок следования разделов (маловероятно, например, что обсуждение результатов будет предшествовать их изложению). В качестве семейства алгоритмов оправданно выбирать относительно простые модели вида решающих правил или решающих деревьев, так как качества их работы может быть достаточно, а скорость работы и вычислительные затраты — важный фактор при оценке промышленных решений.

Пользователи имеют возможность внести исправления в автоматически установленные границы разделов, что впоследствии используется как материал для дополнительного обучения алгоритмов. Таким образом пользователи помогают системе работать лучше.

Что будет дальше?

В ближайшее время мы планируем научить систему работать с формулами и таблицами.

Существует довольно много разделов знаний, в которых основные результаты представлены формулами или таблицами. Для Антиплагиата работа с такими объектами пока является направлением перспективных исследований.

Почему вообще появилась система «Антиплагиат»?

Описанный выше функционал ещё 15 лет назад казался чем-то фантастическим, тем не менее — желанным. В то время уже существовали ранние модели систем обнаружения заимствований. Их главным недостатком была необходимость привлекать людей с определённой квалификацией для трактовки результатов проверки. Это повышало роль субъективных факторов: уровня квалификации, внимательности, возможности конфликта интересов, коррупции. Кроме того, иногда на экспертный анализ работ просто не хватало времени.

Это создавало запрос на разработку идеального детектора плагиата, который в полностью автоматическом режиме мог бы дать заключение о качестве работы. При этом, с одной стороны, проверка должна была происходить при минимальном участии проверяющих или вообще без их участия, а с другой — если возникли сомнения, должны были быть средства, которые позволяют полностью «препарировать» результат автоматической проверки.

Более подробно об истории зарождения системы «Антиплагиат» можно прочитать в статье президента компании Антиплагиат Юрия Чеховича. Здесь мы лишь скажем, что, как видно из описанного выше функционала, нынешняя система «Антиплагиат» вполне отвечает заданным запросам. Само собой, развитие не останавливается — вызов бросает и академическая среда, и ИИ-технологии, которые развиваются в беспрецедентно быстром темпе. Наша система адаптируется: решает всё более и более комплексные проблемы и встраивает решения в конвейер проверки документов.

Читайте самые свежие выпуски среди первых!
Специальные рассылки статей и публикаций от Antiplagiat.ru для научных сотрудников и студентов!