Исчерпаются ли у ИИ данные для обучения к 2026 году?
Изучите возможность исчерпания данных для обучения ИИ к 2026 году и его влияние на развитие технологий ИИ. Узнайте о возможных решениях и вызовах.
Искусственный интеллект полагается на данные для обучения, работы и развития — для ИИ это сродни энергии.
Чем больше количество и качество данных, тем лучше работает ИИ и совершенствуется с течением времени.
Но что, если в мире закончатся данные?
Недавно обновленный документ предполагает, что, если развитие ИИ продолжится нынешними темпами, все онлайн-данные могут быть исчерпаны в период с 2026 по 2032 год — или даже раньше, если модели будут чрезмерно обучены.
Пабло Вильялобос, первый автор исследования Epoch AI, обсудил результаты с Live Science.
«Если чат-боты будут потреблять все доступные данные без повышения эффективности данных, я ожидаю относительную стагнацию в этой области. Модели будут улучшаться лишь медленно по мере обнаружения новых алгоритмических идей и естественного генерирования новых данных». Если данных станет недостаточно, исследователи предполагают, что ключевыми решениями станут частные и синтетические данные. Однако не все верят, что этот сценарий когда-либо осуществится.
«Я считаю, что уже имеется достаточно данных, и будущее развитие ИИ будет сосредоточено на совершенствовании алгоритмов обучения, а не на сборе большего количества данных», — заявил Дунаев. Он отметил, что исследование предсказывает нехватку данных в течение нескольких лет, но быстрые темпы развития ИИ затрудняют долгосрочные прогнозы. Кроме того, он подчеркнул, что человечество будет продолжать генерировать больше данных и проводить исследования с помощью ИИ.
Джим Каскейд, генеральный директор Conversica, поставщика диалогового искусственного интеллекта, также прокомментировал исследование Techopedia. Каскейд признал надежность и обоснованность прогнозов исследования, но подчеркнул динамичный характер Интернета и генерации данных. Он отметил, что ежедневно создается более 2,5 квинтиллиона байт данных, при этом социальные платформы ежегодно генерируют 100 триллионов текстов, 1,5 триллиона твитов в год, ежегодно загружают более 260 миллионов часов видео на YouTube и ежегодно публикуют более 1 триллиона фотографий.
Дмитрий Шевченко, эксперт по классическому машинному обучению, компьютерному зрению и обработке естественного языка и специалист по данным в Aimprosoft, согласился с исследованием, но отметил, что его выводы неполны, поскольку они не учитывают новые достижения. Он упомянул усовершенствования в алгоритмах сжатия данных и методах оптимизации, которые могут значительно снизить потребность в огромных объемах данных. Шевченко также упомянул потенциал синтетических данных и трансферного обучения, отметив, что исследование не полностью учитывает сложности и ограничения этих методов.
Появляются тысячи новых компаний, занимающихся искусственным интеллектом
Экосистема искусственного интеллекта быстро расширяется: растет число компаний, разрабатывающих, интегрирующих и применяющих технологии искусственного интеллекта. Этот экспоненциальный рост числа новых компаний, занимающихся искусственным интеллектом, рассматривается в исследовании как фактор, влияющий на доступность и использование данных.
По данным глобальной платформы данных о стартапах Tracxn, по состоянию на 27 июня в секторе искусственного интеллекта насчитывается 75 741 компания. Сюда входят как ведущие фирмы, так и стартапы в области искусственного интеллекта, которые готовы к значительному росту в 2024 году. Число компаний в этой области увеличивается примерно на 10%. каждый месяц.
Могут ли технологии искусственного интеллекта развиваться без данных?
Один из выводов исследования заключается в том, что без данных развитие технологий искусственного интеллекта невозможно. Каскейд из Conversica сообщил Techopedia, что отсутствие новых данных будет препятствовать прогрессу ИИ.
«Исследование подчеркивает, что LLM в значительной степени полагаются на крупномасштабные высококачественные данные для обучения», — объяснил Каскейд. «Без новых данных этим моделям будет сложно учиться на развивающихся тенденциях и контекстах, что снизит их эффективность и точность».
Тем не менее, исследование также предлагает потенциальные решения, такие как генерация синтетических данных, перенос обучения из областей, богатых данными, и повышение эффективности данных.
Хотя Каскейд выразил сомнения по поводу синтетических данных, он признал, что они могут помочь сохранить темпы развития ИИ, предоставляя альтернативные источники данных, даже в отсутствие новых данных, созданных человеком.
«Если бы у ИИ закончились данные из-за нехватки ресурсов или по какой-либо другой причине, я бы предположил, что поставщики просто очистят старые данные, чтобы получить новые — за исключением моделей, специально обученных на предыдущих периодах, которые не требуют недавних данных для выполнения своих задач. "
Если синтетические данные, передача знаний и индустрия частных данных не смогут удовлетворить потребности будущих ИИ, технология достигнет плато производительности, предупредил Каскейд. Это похоже на дрейф модели, когда производительность модели со временем снижается, поскольку данные, на которых она обучалась, устаревают или становятся неактуальными.
«Это приведет к тому, что модели со временем станут менее эффективными, поскольку они не смогут учитывать новую информацию и тенденции. Кроме того, отсутствие свежих данных может привести к переобучению, когда модели становятся слишком специализированными на существующих данных и плохо справляются с любыми новыми задачами».
Дунаев из Comply Control считает, что ответ заключается в оптимизации алгоритмов, а не в сборе большего количества данных. «Учитывая нынешние темпы развития и способность ИИ генерировать новые данные и проводить исследования, недостаток данных не является существенным ограничением для будущего прогресса», — сказал Дунаев.
«Если у ИИ закончатся данные, он все равно будет совершенствоваться за счет оптимизации алгоритмов обучения и проведения собственных исследований для сбора новых данных. Таким образом, даже при ограниченных данных ИИ сможет продолжать расти и совершенствоваться».
Шевченко из Aimprosoft не уверен, будут ли модели искусственного интеллекта развиваться плавно в условиях кризиса данных.
«Реальные данные являются основой разработки ИИ, предоставляя разнообразную, богатую и контекстуально релевантную информацию, которая позволяет моделям эффективно учиться, адаптироваться и обобщать различные сценарии», — сказал Шевченко.
«Генерация синтетических данных, трансферное обучение и методы оптимизации данных могут смягчить последствия нехватки данных. Однако эти методы не могут полностью заменить богатство и контекстную значимость реальных данных».