Создатели YouTube были шокированы, узнав, что Apple и другие компании использовали их видео для обучения искусственному интеллекту
Проблемы с использованием контента создателей в обучении ИИ: реакции, мнения и юридические вопросы вокруг данных и платформ.
Согласно недавнему отчету Proof News и Wired, модели искусственного интеллекта, разработанные Apple, Salesforce, Anthropic и другими ведущими технологическими компаниями, были обучены на десятках тысяч видеороликов YouTube без согласия создателей, что потенциально нарушало условия обслуживания YouTube. Эти компании использовали «The Pile» — набор данных, созданный некоммерческой организацией EleutherAI, призванный помочь небольшим предприятиям конкурировать с крупными технологическими компаниями, хотя его переняли и более крупные фирмы.
The Pile включает в себя широкий спектр контента, например, книги и статьи в Википедии, а также субтитры YouTube, собранные с помощью API субтитров YouTube из 173 536 видео на более чем 48 000 каналах. В эту коллекцию входят такие популярные авторы, как MrBeast, PewDiePie и технический комментатор Маркес Браунли. В X Браунли обратился к использованию Apple этого набора данных, отметив сложность возложения вины, поскольку Apple не собирала данные напрямую. Он постановил:
«Apple получила данные для своего ИИ от различных компаний. Одна из них собрала значительное количество данных/расшифровок видео на YouTube, в том числе и моего. Технически Apple избегает здесь «вины», потому что не они делают сбор данных, а эта проблема будет сохраняться в течение длительного времени».
Набор данных включает в себя каналы различных основных и онлайн-медиа-брендов, в которых представлен контент, созданный Ars Technica и другими изданиями Condé Nast, такими как Wired и The New Yorker. Примечательно, что одно видео в наборе данных представляет собой короткометражный фильм Ars Technica, который с юмором утверждает, что был написан искусственным интеллектом. В статье Proof News подчеркивается, что набор данных также содержит видеоролики с изображением попугая, что наводит на мысль, что модели ИИ, по сути, имитируют попугая, который имитирует человеческую речь, а также других ИИ, имитирующих людей. Поскольку контент, созданный ИИ, становится все более распространенным в Интернете, становится все труднее собирать наборы данных для обучения ИИ без включения контента, уже созданного ИИ. Хотя большая часть этой информации не нова, The Pile широко упоминалась в дискуссиях по искусственному интеллекту и ранее использовалась технологическими компаниями в учебных целях. Это также упоминалось в нескольких судебных процессах, связанных с исками об интеллектуальной собственности против компаний, занимающихся искусственным интеллектом. Ответчики, в том числе OpenAI, утверждают, что этот тип сбора данных подпадает под добросовестное использование, хотя иски остаются неразрешенными. Кроме того, Proof News разработала инструмент, который позволяет пользователям искать в The Pile определенные видео или каналы.
В работе подчеркивается обширный характер сбора данных и подчеркивается ограниченный контроль, который владельцы интеллектуальной собственности имеют над использованием своего контента, доступного в открытой сети. Однако важно понимать, что эти данные могли не использоваться специально для обучения моделей создания конкурентоспособного контента для конечных пользователей. Например, Apple могла использовать набор данных в исследовательских целях или для улучшения функций автозаполнения текста на своих устройствах.
Реакция создателей
Proof News связалась с несколькими авторами и компаниями, которые использовали набор данных, для получения комментариев. Большинство авторов были ошеломлены тем, что их контент использовался таким образом, а те, кто ответил, критиковали EleutherAI и участвующие компании. Например, Дэвид Пакман из Шоу Дэвида Пакмана заявил:
«Никто не обратился ко мне с просьбой разрешить использовать это… Это мой заработок, и я вкладываю значительное время, ресурсы и персонал в создание этого контента. Конечно, недостатка в работе нет».
Джулия Уолш, генеральный директор компании Complexly, которая производит SciShow и другой образовательный контент Хэнка и Джона Грина, сказала:
«Мы разочарованы, обнаружив, что наш тщательно созданный образовательный контент был использован без нашего согласия».
Кроме того, существуют опасения по поводу того, не нарушает ли очистка этого контента условия обслуживания YouTube, которые запрещают доступ к видео «автоматическими средствами». Основатель EleutherAI Сид Блэк отметил, что он использовал скрипт для загрузки субтитров через API YouTube, аналогично тому, как работает веб-браузер.
Anthropic входит в число компаний, которые обучили модели с использованием набора данных, и утверждает, что никаких нарушений не было. Пресс-секретарь Дженнифер Мартинес заявила:
«The Pile содержит лишь небольшую часть субтитров YouTube... Условия YouTube применяются к прямому использованию его платформы, что отличается от использования набора данных The Pile. Если у вас возникнут вопросы о потенциальных нарушениях условий YouTube, мы направим вас к авторам The Pile. ."
Представитель Google сообщил Proof News, что компания «на протяжении многих лет принимала меры для предотвращения злоупотреблений, несанкционированного парсинга», но не предоставил дополнительных подробностей. Эта ситуация не нова, поскольку компании, занимающиеся искусственным интеллектом и технологическими компаниями, подвергаются критике за обучение моделей на видео на YouTube без надлежащего разрешения. Примечательно, что OpenAI, создатель ChatGPT и видеоинструмента Sora, подозревается в использовании данных YouTube для обучения моделей, хотя не все утверждения подтвердились.
В интервью Нилаю Пателю из The Verge генеральный директор Google Сундар Пичаи отметил, что использование видео YouTube для обучения Sora OpenAI, скорее всего, нарушит условия YouTube, хотя это отличается от очистки титров через API.