Роль ИИ в плагиате: как ученые могут решить эту проблему?
"С момента выхода ChatGPT использование ИИ в академических статьях резко возросло. В 2024 году до 10% аннотаций использовали LLM для написания."
В последние месяцы академическое сообщество потрясли громкие дела о плагиате, включая отставку президента Гарварда и обнаружение скопированного текста в рецензиях коллег. Новая проблема возникла с появлением генеративных инструментов ИИ, которые могут создавать текст на основе подсказок. Это развитие вызвало споры о том, является ли такой сгенерированный ИИ текст плагиатом и при каких условиях его следует использовать.
Джонатан Бейли, консультант по авторским правам и плагиату, указывает на путаницу, окружающую роль ИИ в научных работах, отмечая спектр участия ИИ от полностью написанного человеком до полностью сгенерированного ИИ контента. Генеративные инструменты ИИ, такие как ChatGPT, могут повысить производительность и ясность, но также вызывают опасения по поводу возможного неправомерного использования. Эти инструменты, которые обучаются на обширных опубликованных работах, могут непреднамеренно создавать текст, похожий на существующий контент, или использоваться для маскировки преднамеренного плагиата, что затрудняет обнаружение академической нечестности.
Опрос 1600 исследователей в 2023 году показал, что 68% считают, что ИИ будет способствовать плагиату и усложнит его выявление. Дебора Вебер-Вульф, эксперт по плагиату, отмечает, что академическое сообщество обеспокоено последствиями ИИ и его влиянием на академическую честность.
ИИ и плагиат: Навигация по новым границам
Плагиат, определяемый Управлением по добросовестности исследований США как «присвоение идей, процессов, результатов или слов другого человека без указания соответствующего источника», остается постоянной проблемой. Исследование 2015 года показало, что 1,7% ученых признались в плагиате, а 30% знали коллег, которые им занимались.
Появление больших языковых моделей (LLM), таких как ChatGPT, усложняет эту проблему. Эти инструменты ИИ могут скрывать преднамеренный плагиат, перефразируя текст сложными способами, например, имитируя стиль академических журналов, как отметил Мухаммад Абдул-Магид, компьютерный ученый и лингвист из Университета Британской Колумбии.
Основной спор вращается вокруг того, является ли неатрибутивный сгенерированный ИИ контент плагиатом. Многие исследователи утверждают, что это не так, проводя различие между «несанкционированным созданием контента» и традиционным плагиатом. Например, Европейская сеть академической честности не приравнивает использование инструментов ИИ к плагиату. По словам Деборы Вебер-Вульф, плагиат подразумевает приписывание идентифицируемому лицу, а сгенерированный ИИ текст, даже если он похож на существующий контент, часто не имеет прямой атрибуции, необходимой для плагиата.
Однако некоторые утверждают, что генеративные инструменты ИИ могут нарушать авторские права. Рада Михалча, компьютерный ученый из Мичиганского университета, подчеркивает, что эти системы построены на работе бесчисленного множества людей. Дебаты усилились в декабре 2023 года, когда The New York Times подала иск о нарушении авторских прав против Microsoft и OpenAI, утверждая, что их LLM, GPT-4, использовал миллионы статей газеты без разрешения в учебных целях. В иске приводятся случаи, когда GPT-4 генерировал текст, очень похожий на статьи The New York Times.
В ответ OpenAI попыталась отклонить часть иска, заявив, что ChatGPT не является заменой подписного контента, а Microsoft подчеркивает, что инструменты ИИ должны развиваться ответственно, не подрывая журналистику. Если суд сочтет, что обучение ИИ на тексте без разрешения является нарушением авторских прав, это может существенно повлиять на компании ИИ и их методики обучения.
Всплеск ИИ в академическом письме
С момента выпуска ChatGPT в ноябре 2022 года использование ИИ в академическом письме резко возросло. Исследование, обновленное в июле 2024 года, показало, что около 10% аннотаций в биомедицинских статьях с первой половины 2024 года были написаны с участием LLM, что эквивалентно 150 000 статей в год. Дмитрий Кобак и его команда из Тюбингенского университета проанализировали 14 миллионов аннотаций из PubMed, опубликованных в период с 2010 по июнь 2024 года. Их результаты показали заметный рост использования стилистических слов, таких как «delves», «showcasing» и «underscores», которые были связаны с контентом, созданным с помощью ИИ. Этот сдвиг подчеркивает глубокое влияние LLM на научную литературу.