November 21st, 2019

Про программу "Антиплагиат".

    Недавно делал доклад на конференции по мотивам своей статьи об индексе Херфиндаля-Хиршмана для рынка услуг операторов подвижного состава в 2019 году. Точнее- двух статей. Одна выходила в научном журнале ("Экономика железных дорог" - "главный" экономический журнал в нашей отрасли), другая - сокращённая версия с изложением основных выводов в деловом журнале ("РЖД-Партнёр").
     По итогам конференции будет выходить сборник, куда я соответственно даю текст своего доклада (доклад сделан по мотивам двух указанных моих статей). Перед публикацией необходимо проверить текст на антиплагиат. Программа сообщает, что уровень оригинальности текста "средний" и составляет 70,44%, а заимствования составляют 29,6%.
     Одновременно с этим указаны самые крупные источники "заимствования":
1) Фрагмент в 43 % текста дублирует текст статьи, являющейся перепечаткой моей же статьи в "РЖД-Партнёре" на одном из сайтов. Любопытно, что Антиплагиат не нашёл ни одной из двух моих оригинальных стаей, но нашёл их перепечатку на  сайье, который агрегирует публикации на железнодорожные темы
2) Ещё два фрагмента по 5 % пересекаются с двумя текстами, один из которых представляет собой перечень моделей платформ одного завода-изготовителя, а другой - заметку в "Коммерсанте" про рынок операторов, в котором (я перечитал её два раза) нет ни одного моего тезиса, кроме того, что упоминаются те же слова "Первая грузовая компния", "полувагоны", "конкуренция" и т.п.
     Оставим в стороне арифметику (если всего заимствований 29%, то 5+5+43 = 53% - а это больше, чем 29; что-то не сходится).
Но даже по тексту- сразу возникают вопросы.
     Ну, по п.1 всё понятно - программа не понимает, что автор и того и другого текста я, поэтому формально ищет сходство в словах, это должны увидеть редакторы сборника и отбросить эти 43%. Но редакторы-то не знают, что они должны это отбросить- у них есть формальное требование, которое нужно, как принято сейчас выражаться "тупо выполнять". Сделайте рерайт - советуют мне коллеги по вузу.
     Но вот теперь рассмотрим два фрагмента по 5 %.
     Какие общие фразы обнаружил антиплагиат? Их можно подсветить и выбрать. Это вот такие фразы: "можно в данном случае", "это был третий по величине игрок рынка", "дать формальный ответ что", "подвижного состава", "рынка предоставления подвижного состава", "рынок услуг можно", "компании холдинга ржд", "ФГК и Трансконтейнер учтены", "полувагоны", "крытые вагоны" и "оценка уровня конкуренции на рынке услуг". Причём, довольно большая часть того, что прграмма считает заимствованиями, это названия тех или иных родов вагонов или просто названия названия или устойчивые словосочетания. Например, заимствованием признаны следующие слова: "полувагоны", "крытые", "цистерны", "платформы", "Индекс Херфиндаля-Хиршмана" и т.п.  Плюс к этому выделены в качестве плагиата отдельные слова такие как "можно", "в целом" и "отгружать". Ну, то есть предложение целиком- не плагиат, но вот слово "можно" в нём учтено как плагиат, потому что слово "можно" уже кто-то использовал в каком-то тексте.
     Спустя некоторое время, от организатоов другой конференции (в том же вузе) приходит письмо, в котором сообщают, что моя другая статья- про тарифы на уголь тоже попала под каток программы "Антиплагиат-вуз". Оказалось, что часть текста  "заимствована" из статьи на сайте Lenta, которая, как оказалось, в свою очередь, является пересказом моей же статьи в "Ведомостях". Справедливости ради, отмечу, что автор Ленты в начале указывает источник (что-то вроде  "по мнению Фарида Хусаинова, высказанному в "Ведомостях"..." и дальше идёт тот текст, который был в "Ведомостях"). В итоге, если я делаю доклад на конференции, в котором есть формулировки из любой моей ранее опубликованной статьи, то я попадаю под антиплагиат.
    Более того, если мне повезло и мою статью никто не заметил и не читал, то всё в порядке, но если мою статью прочитали и потом пересказали или перепечатали другие СМИ, то сделать доклад в этом виде и поместить тезисы доклада в сборник я не могу.
    Сотрудники вуза (в котором выпускаются сборники и той и другой конференции) порекомендовали мне две вещи: перефразировать свои собственные формулировки, тогда тезисы пройдут в сборник. Но мне кажется, что мои формулировки - хороши (признаю, что это субъективно). Значит, что бы пройти систему АнтиплагиатВУЗ" нужно, во-первых, ухудшить свой собственный текст (переписать его другими словами), а во-вторых, желательно писать такие статьи, которые никто не заметит и не захочет перепостить (тогда выше вероятность, что программа их не обнаружит).
     Интересно, знают ли авторы программы, созданной, вообще говоря, насколько я понимаю, для другой цели- для отслеживания случаев, когда Иванов списал текст у Петрова, что эту программу в российских условиях используют буквально в лоб - такой-то процент слов совпали- меняй текст? И если авторы программы это понимают, почему они допустили использование этой программы в вузах? Или это просто Салтыково-Щедринская дурь, и авторы Антиплагиата тут не виноваты? И что с этим делать?

     При этом, мне-то ещё повезло, в экономических текстах есть какая-то свобода. А вот знакомые, пишущие работы о технологии работы, например, сортировочной станции - те вообще в ужасе: там в принципе ограниченный набор словосочетаний, которыми можно описать тот или иной процесс, им, технарям приходится ещё труднее: приходится пользоваться программой, которая автоматически заменяет русские буква на английские похожего написания, потому что термины рейс или полурейс вы никак не замените на какие-то другие произвольные слова, а в таких технических статьях 90% текста-это устойчивые словосочетания, которые, будучи когда-то придуманными и внесёнными в соответствующие технологические документы, больше не менялись. Когда я стал спрашивать об этом коллег с других кафедр, оказалось, что эта проблема есть у всех технических специальностей.