Тестирование программ и сервисов проверки текста на уникальность

Одним из критериев оценки качества текстового веб-контента на данный момент является уникальность. Поисковые системы ужесточают алгоритмы ранжирования страниц, предпочитая уникальные тексты копированным. Как следствие, вебмастера стараются наполнять свои сайты написанными "с нуля" текстами или более дешевым рерайтингом. Степень оригинальности текста, как известно, определяется не на глаз, а при помощи специальных программ и онлайн-сервисов. Какой же из этих инструментов более эффективен и показывает самые правдивые результаты? Попробуем провести тест, по очереди скармливая нашим подопытным одинаковые фрагменты текста.

Для начала посмотрим, на что способны десктопные программы, которые требуется скачивать и устанавливать на свою машину (некоторые и вовсе не требуют установки). У них есть определенное преимущество в удобстве перед онлайновыми собратьями - вам не нужно открывать лишние сайты, управление программой происходит непосредственно на вашем компьютере. Но некоторые из них не устанавливаются на операционные системы семейств, отличных от Windows.

Своего рода стандартом проверки текстов на плагиат при их продаже является использование программы Advego Plagiatus от биржи контента Advego. В эксперименте была опробована ее последняя актуальная версия - 1.0.1.21. Переварив предложенный кусок текста - второсортный копирайтинг с заведомо низким уровнем оригинальности - трижды, она определила, что он уникален:

  1. В первом случае - на 90%
  2. Во втором - на 93%
  3. И в третьем - снова на 90%

Из приведенных скриншотов видно, что Advego почти в каждом случае находила разные совпадения и пропускала уже найденные ранее. Кроме того, программа иногда давала сбой и не проводила поиск вообще:

После на обработку был отправлен текст, целиком состоящий из предложений, скопированных с различных сайтов из индекса поисковой системы Яндекс. В идеале, после проверки такой текст должен был оказаться на 100% неуникальным. Однако такого чистого результата добиться не удалось.

  1. 55%
  2. 68%
  3. 67%

После была проверена программа Etxt Антиплагиат, посмевшая пошатнуть незыблемость авторитета Адвего и набирающая все большую популярность. Вот как она справилась с первым тестом:

  1. 68%
  2. 65%
  3. И снова 65%

Как видно, Etxt лучше справляется с поиском коротких неуникальных фраз. Посмотрим, как она умеет находить ворованные предложения из текста №2.

  1. 43%
  2. 48%
  3. 38%

Результат не идеален, но определенно лучше, чем у Адвего. В целом, Etxt Антиплагиат превосходит конкурирующую программу Адвего Плагиатус по всем показателям.

DCFinder от биржи TextBroker после анализа первого текста констатировал: "Возможно, Ваш текст неуникален! Найдены совпадения по следующим ссылкам" и привел пару ссылок, предоставив пользователю приятную возможность самому искать совпадения на веб-страницах. С текстом №2 он поступил примерно так же. Было обнаружено только одно неуникальное предложение, зато предоставлен целый ряд сайтов, его содержащих. Однако с полностью скопированным с одного сайта текстом он все же справился.

Серая лошадка в числе детекторов плагиата - программа Praide unique content analyzer 2. Много кнопочек и настроек и практически никакой пользы. Катастрофически долгий процесс поиска дублей заканчивается ничем.

Перейдем, наконец, к рассмотрению онлайновых инструментов анализа текста.

Сервис Miratools.ru продемонстрировал впечатляющие результаты. Первый образец текста при длине шингла 3 он признал почти полностью неуникальным и для каждого фрагмента из трех слов при наведении мыши показал целый список сайтов:

Для проверки второго текста, состоящего из копированных предложений, был задан шингл 5. И при этом опять для каждого шингла было найдено несколько соответствий:

Выборочно были проверены приведенные сайты - действительно, эти фразы там находились.

Istio.com - в принципе, абсолютно бесполезный ресурс. Справился только со стопроцентным копипастом. При добавлении к тексту всего лишь одной уникальной фразы ослеп и заявил, что "копий не найдено". Как бы в качестве извинения за неспособность работать по прямому назначению предоставляется дополнительный функционал - возможность определить водность, тошноту и плотность ключевых слов текста.

Plagiarismdetect.com для анализа текстов использует базу поисковой системы Гугл. Для оценки его работоспособности применялись отрывки текста с сайтов в выдаче Гугла. Степень уникальности полностью скопированных фрагментов он определял на уровне 60-80%, даже несмотря на то, что в числе найденных ссылок на сайты с похожим текстом показывал ссылку на сайт с оригиналом текста. В некоторых случаях дубли вообще не были определены, в других доля плагиата составляла 100%. Видимо, это происходило из-за несовершенства алгоритма поиска дубликатов. Текст же, который использовался при тестировании Advego и Etxt, был признан полностью уникальным. Посему можно сделать вывод, что для серьезной работы этот ресурс не подходит.

Довольно авторитетный сервис copyscape.com, о котором, наверное, знают все, позволяет проверять оригинальность проиндексированных страниц веб-сайтов. Он успешно справляется с этой задачей даже при условии, что к краденому тексту на сайте похитителя добавлены новые фрагменты. Копискейп не способен провести глубокую проверку и отобразить степень уникальности в процентах, он предназначен только для поиска дублированного контента.

Тем не менее, этот сервис предоставляет возможность анализа и новых, неопубликованных текстов, при помощи инструмента Copyscape Premium. Воспользоваться им можно только на платной основе, и автор этой статьи не смог его протестировать, потому что у него нет ни желания, ни времени регистрировать счет в PayPal или American Express. Разработчики заверяют, что Premium - это "самый продвинутый поиск плагиата в сети". Это утверждение верно, только если он умеет работать с шинглами, определяет процент уникальности и адекватно проводит поиск.

Findcopy.ru - копированные тексты этот сервис находит, но почему-то занижает процент сходства. А нашему тексту про паркет он присудил 15% сходства, то есть 85% уникальности. Такой необъективный анализ, к тому же, еще и не бесплатен.

Seolib.ru (http://www.seolib.ru/script/copy) - непонятно, работает ли он вообще или это просто фейк, приманка СЕО-сервиса seolib.ru. Любой копипаст считает уникальным.

Некоторые пользователи сети, как вебмастера, так и копирайтеры, пытаются определить уникальность текста при помощи сервиса Antiplagiat.ru. И каждый раз получают воодушевляющее заключение - с сайтов вебмастеров никто не крадет контент, а копирайтеры создают на сто процентов исключительные тексты. Но Антиплагиат создан не для этих целей, и результаты проверки обычного веб-контета будут ошибочными. Этот ресурс призван повысить эффективность отечественного образования и осложнить жизнь простых студентов. Система Антиплагиат используется в учебных заведениях и служит для проверки работ учащихся на заимствования фрагментов текста из открытых источников. Она использует собственную поисковую базу и наполняет ее специфическими документами (рефератами и дипломными, выложенными в сети, нормативными документами и проч.). Вердикт: это не то, что нам нужно.

По всей видимости, по качеству проверки текста и доступности использования (программа абсолютно бесплатна) лидером становится Etxt Антиплагиат. Будем надеяться, что разработчики этого инструмента смогут избежать появления сбоев в его работе, а владельцы Advego Plagiatus справятся с нестабильностью программы и сохранят достойную конкуренцию.

Среди онлайн-сервисов безоговорочным преимуществом обладает Miratools. К сожалению, при бесплатном использовании отсутствует возможность изменять длину шингла (длина по умолчанию - 9). Владельцам платных аккаунтов доступны все опции. Проверка тысячи знаков текста стоит 0.05$.

Автор: Polygraph