Новые метаинструменты скрытно собирают веб-данные для обучения ИИ

Meta тайно использует новые веб-сканеры для сбора данных для обучения ИИ, несмотря на предыдущие запреты на скрейпинг и ограниченное раскрытие информации.

август 22, 2024 - 15:38

Новые метаинструменты скрытно собирают веб-данные для обучения ИИ

Хотя краулеры были обнаружены в июле Originality.ai и Dark Visitors, Meta публично не раскрывала их существование.

Meta недавно запустила два «новых» пользовательских веб-краулера, предназначенных для сбора данных со всего Интернета для обучения своих моделей ИИ. Несмотря на значимость этих инструментов, компания не предприняла никаких усилий, чтобы информировать широкую общественность об их использовании. Вместо этого Meta тихо признала существование этих краулеров с помощью незаметного обновления веб-страницы, предназначенной для разработчиков, в конце июля.

Эти краулеры, известные как Meta-External Agent и Meta-ExternalFetcher, были обнаружены фирмами по мониторингу ИИ, такими как Originality.ai и Dark Visitors. По данным этих фирм, Meta-ExternalAgent играет решающую роль в обучении моделей ИИ и улучшении продуктов на основе ИИ путем «прямой индексации контента» из Интернета. С другой стороны, Meta-ExternalFetcher тесно связан с инструментами помощника ИИ Meta, активно выискивая веб-ссылки для повышения производительности этих инструментов при реагировании на запросы пользователей.

Хотя краулеры были обнаружены в июле Originality.ai и Dark Visitors, Meta публично не раскрывала их существование. Вместо этого компания решила тихо обновить веб-страницу, на которой описаны ее веб-краулеры для разработчиков. Когда к ним обратился Fortune, Meta подтвердила, что использует эти новые краулеры, объяснив, что они являются преемниками более старого краулера Meta, известного как Facebook-ExternalHit. Этот предыдущий краулер собирал данные из приложений и веб-сайтов, размещенных на платформах Meta, включая Facebook, Instagram и Messenger, в течение нескольких лет.

Представитель Meta недавно признал, что, как и многие другие компании, Meta обучает свои генеративные модели ИИ с использованием контента, который находится в открытом доступе в Интернете. Представитель также упомянул, что Meta недавно обновила свои руководящие принципы, чтобы информировать издателей о том, как предотвратить сканирование их доменов инструментами Meta, связанными с ИИ.

Однако эти руководящие принципы могут мало что успокаивать тех, кто знает о ранее заявленной позиции Meta в отношении веб-скрапинга, которая была обнародована в апреле 2021 года и, по-видимому, с тех пор не пересматривалась. Политика компании четко гласит: «Использование автоматизации для получения данных из Facebook без нашего разрешения является нарушением наших условий». Далее в ней объясняется, что, хотя сами данные могут быть легко доступны для публичного использования, скраперам запрещено получать доступ к данным или собирать их с продуктов Meta с помощью автоматизированных средств без предварительного разрешения.

Учитывая масштаб и характер деятельности Meta, маловероятно, что компания получила явное разрешение от каждого веб-сайта, который она скрапит. Если бы это было так, недавние рекомендации о том, как отказаться от сканирования, были бы в значительной степени неактуальны. Этот подход отражает прошлогоднюю стратегию Meta с ее генератором изображений ИИ, который обучался на изображениях из Instagram и Facebook. Вместо того чтобы искать широкое разрешение, Meta, по-видимому, действует в соответствии с философией «проси прощения, а не разрешения», независимо от того, согласны ли владельцы веб-сайтов или более широкое интернет-сообщество с этой практикой.