Данные, питающие ИИ, быстро исчезают

Базовые данные ИИ быстро сокращаются, что создает проблемы для его будущего развития и применения в различных отраслях.

июль 22, 2024 - 12:07

Исследование также показало, что до 45% данных в одном наборе данных C4 были ограничены из-за условий обслуживания веб-сайтов.

В течение многих лет разработчики мощных систем искусственного интеллекта использовали огромные объемы текста, изображений и видео из Интернета для обучения своих моделей. Однако в последнее время многие важные веб-источники, используемые для обучения ИИ, начали ограничивать доступ к своим данным. Исследование Data Provenance Initiative, проведенное Массачусетским технологическим институтом, показало, что из 14 000 веб-доменов, проанализированных по трем известным наборам данных для обучения ИИ (C4, RefinedWeb и Dolma), наблюдается значительная тенденция к ограничению использования данных. Эту ситуацию называют «возникающим кризисом согласия», когда издатели и онлайн-платформы все чаще блокируют сбор данных. Такие ограничения затронули примерно 5% всех данных и 25% из источников самого высокого качества в этих наборах данных. Эти меры обычно реализуются с использованием протокола исключения роботов — давнего метода владельцев веб-сайтов, позволяющего запретить автоматическим ботам доступ к их страницам через файл robots.txt.

«Мы наблюдаем быстрое снижение согласия на использование данных в Интернете, что влияет не только на компании, занимающиеся искусственным интеллектом, но и на исследователей, ученых и некоммерческие организации», — сказал в интервью Шейн Лонгпре, ведущий автор исследования.

Данные составляют основу современных генеративных систем искусственного интеллекта, которые опираются на миллиарды примеров текста, изображений и видео. Большая часть этих данных собирается исследователями с общедоступных веб-сайтов и компилируется в обширные наборы данных, которые либо находятся в свободном доступе для использования, либо дополняются дополнительными источниками.

Обучение на таких данных позволяет инструментам генеративного искусственного интеллекта, таким как ChatGPT OpenAI, Gemini от Google и Claude от Anthropic, создавать текст, код, изображения и видео. Качество их результатов обычно улучшается при более высоком качестве входных данных.

В прошлом разработчики ИИ могли сравнительно легко собирать данные. Однако недавний всплеск генеративного ИИ обострил отношения с владельцами данных, многие из которых не решаются использовать их контент для обучения ИИ без компенсации или подтверждения.

На фоне растущего сопротивления некоторые издатели ввели платный доступ или пересмотрели условия обслуживания, чтобы ограничить использование данных для обучения ИИ. Некоторые из них также заблокировали автоматические веб-сканеры, используемые такими компаниями, как OpenAI, Anthropic и Google.

Такие платформы, как Reddit и StackOverflow, теперь взимают плату с компаний, занимающихся искусственным интеллектом, за доступ к данным, а судебные иски, такие как иск The New York Times против OpenAI и Microsoft за предполагаемое нарушение авторских прав, подчеркивают растущую напряженность в отношении использования данных.

Чтобы улучшить свои системы, такие компании, как OpenAI, Google и Meta, прибегли к таким мерам, как расшифровка видео YouTube и корректировка политики обработки данных. Недавно некоторые компании, занимающиеся искусственным интеллектом, заключили соглашения с такими издателями, как The Associated Press и News Corp (владелец The Wall Street Journal), о постоянном доступе к данным. Тем не менее, широко распространенные ограничения на данные представляют собой серьезную проблему для компаний, занимающихся искусственным интеллектом, которые полагаются на постоянный доступ к высококачественным данным для поддержания эффективности своих моделей.

Стелла Бидерман, исполнительный директор EleutherAI, некоммерческой исследовательской организации в области искусственного интеллекта, выразила аналогичную обеспокоенность.

«Крупные технологические компании уже обладают огромными объемами данных», — отметила она. «Изменение лицензий на данные не влечет за собой обратной отмены их разрешений, что в первую очередь затрагивает небольшие стартапы и исследователей».

Компании, занимающиеся искусственным интеллектом, утверждают, что использование ими общедоступных веб-данных подпадает под добросовестное использование, но получение новых данных стало более сложной задачей. Некоторые руководители ИИ опасаются столкнуться с «стеной данных», где все доступные данные обучения из общедоступного Интернета исчерпаны, заблокированы файлами robots.txt или связаны эксклюзивными соглашениями.

Чтобы решить эту проблему, некоторые компании изучают синтетические данные, генерируемые самими системами искусственного интеллекта, для обучения моделей. Однако среди исследователей сохраняются сомнения относительно того, смогут ли нынешние системы искусственного интеллекта производить достаточно высококачественных синтетических данных, чтобы эффективно заменить данные, генерируемые человеком.

Кроме того, хотя издатели могут попытаться ограничить сбор данных ИИ через файлы robots.txt, эти запросы не имеют юридической силы и полагаются на добровольное соблюдение требований, аналогично знаку «посторонним вход воспрещен» для данных.