Маск: ИИ выучил всё известное человечеству и в 2025 году превзойдет человеческие способности.

Американский бизнесмен Илон Маск (Elon Musk), присоединившись к другим специалистам, заметил, что количество доступной информации для подготовки ИИ фактически иссякает, сообщает издание Techcrunch. Миллиардер акцентировал внимание на необходимости переключиться на использование синтезированных данных, которыми уже пользуются такие гиганты, как Microsoft и Google.
По утверждению Маска, мир исчерпал доступные человеческие данные для тренировки нейросетей, и этот момент наступил ещё в 2024 году. Решение этой задачи он видит исключительно в применении синтезированной информации особого рода данных, создаваемых самим ИИ в ходе процесса самообучения. Бизнесмен указал, что благодаря этим данным нейросети смогут самостоятельно проводить оценку своей работы, иными словами, искусственный разум станет обучаться сам.
Techcrunch информирует, что сегодня основной преградой на пути создания действительно инновационных ИИ-решений, таких как общий искусственный интеллект (AGI), является недостаток данных для обучения моделей. Оценить эффективность новой методики можно будет уже в 2025 году, когда планируется выпуск GPT-5, который может стать первой полноценной моделью AGI.
Сам Илон Маск предсказывает, что к завершению 2025 года системы ИИ превзойдут любые человеческие интеллектуальные способности. Он уверен, что вероятность того, что ИИ обгонит совокупный человеческий интеллект к 2030 году, достигает 100%.
Разработчики стартапа Writer, специализирующегося на создании ИИ-программ, утверждают, что обучение на основе синтезированных данных позволяет экономить ресурсы. Например, разработка модели Palmyra X 004, использующей преимущественно синтетический источник данных, обошлась всего в $700 тысяч, тогда как аналогичная по масштабу модель компании OpenAI стоила $4,6 миллиона.
Современные ИИ-системы, включая широко используемые крупные языковые модели (LLM), опираются на колоссальный массив данных, стараясь задействовать все возможные высококачественные источники для обучения. До 2015 года главным препятствием для развития технологий ИИ были ограниченные вычислительные мощности, однако в последнее десятилетие технологический прогресс начал опережать темпы генерации новых данных для тренировочных наборов. С появлением мощных чипов многие специалисты в сфере ИИ ещё в 2020 году забеспокоились, что нехватка качественной информации для обучения ИИ-моделей неизбежна.
Бывший старший исследователь OpenAI Илья Суцкевер также придерживается мнения, что будущее принадлежит синтезированным данным. Он прогнозирует, что в отличие от нынешних ИИ-механизмов, будущие системы будут способны решать задачи поэтапно, имитируя ход человеческих мыслей.
Сооснователь стартапа Anthropic Джек Кларк утверждает, что их ИИ-модели были обучены на значительной доле всей информации, которая когда-либо существовала в интернете.
Между тем, технический руководитель OpenAI Мира Мурати летом 2024 года не предоставила однозначного ответа на вопрос о том, применялись ли данные из соцсетей при обучении модели Sora. Эти факты свидетельствуют о том, что ведущие игроки в области ИИ уже сталкиваются с недостатком доступного материала для обучения своих моделей и могут прибегать к источникам, чье использование вызывает вопросы. В частности, против разработчика ChatGPT, компанию OpenAI, регулярно подают судебные иски за нарушение авторских прав, что вынудило её увеличить штат юристов.
Технологические корпорации, включая такие компании, как OpenAI и Microsoft, уже активно внедряют синтетические данные для обучения своих ключевых ИИ-моделей. Согласно оценкам аналитической фирмы Gartner, около 60% данных, задействованных в работе нейросетей, специально созданы. Однако существует риск, что такой подход сделает ИИ-модели более склонными к предвзятости и ограниченности, ведь специально подготовленный учебный материал неизбежно основывается на существующих источниках.
В мае 2024 года Центр Искусственного Интеллекта, Ориентированного на Человека (HAI) при Стэнфордском университете опубликовал доклад о развитии ИИ. В первом разделе документа указывается, что эксперты прогнозируют истощение общедоступных текстовых данных в период с 2026 по 2032 год. Ранее эта группа исследователей предполагала, что нехватка качественных выборок для языковых моделей произойдет уже в 2024 году, но позже пересмотрела свой прогноз. Что касается визуальной информации — изображений и видео, — здесь ученые ожидают дефицита данных для машинного обучения лишь к 2038–2046 годам.
Кроме того, отмечается возможность манипуляции результатами работы ИИ через обучение на неподтвержденной информации.
Эксперты Нью-Йоркского университета (США) предупреждают о потенциальных угрозах, связанных с обучением ИИ-моделей на недостоверных данных. Результаты этого исследования опубликованы в журнале Nature.
Учёные утверждают, что большие языковые модели (LLM) будут допускать ошибки, если их обучать на ложной информации или намеренно предоставлять им антинаучные данные. Исследования показали, что даже при уровне дезинформации в 0,001% нейросеть может начать генерировать значительное число неправильных ответов.
Для эксперимента учёные выбрали 20 тем из трёх медицинских направлений: общей медицины, нейрохирургии и фармакологии, используя базу данных The Pile. Чтобы проверить влияние дезинформации на процесс обучения, они использовали модель GPT 3.5. Оказалось, что нейросети не только передавали неверную информацию в ответ на прямые запросы, но и начинали ошибаться в смежных вопросах. Это открывает новые возможности для манипуляций с ИИ.
Так, при уровне дезинформации в 0,01% LLM допускает ошибки в 10% ответов. Если уменьшить долю фальшивых учебных материалов до 0,001%, то модель начинает ошибаться в 7% случаев.
Исследователи подчеркивают, что пользователи часто доверяют информации, предоставляемой чат-ботами, не перепроверяя её у экспертов. Именно поэтому они настаивают на важности тщательной проверки данных, используемых для обучения моделей.
По утверждению Маска, мир исчерпал доступные человеческие данные для тренировки нейросетей, и этот момент наступил ещё в 2024 году. Решение этой задачи он видит исключительно в применении синтезированной информации особого рода данных, создаваемых самим ИИ в ходе процесса самообучения. Бизнесмен указал, что благодаря этим данным нейросети смогут самостоятельно проводить оценку своей работы, иными словами, искусственный разум станет обучаться сам.
Techcrunch информирует, что сегодня основной преградой на пути создания действительно инновационных ИИ-решений, таких как общий искусственный интеллект (AGI), является недостаток данных для обучения моделей. Оценить эффективность новой методики можно будет уже в 2025 году, когда планируется выпуск GPT-5, который может стать первой полноценной моделью AGI.
Сам Илон Маск предсказывает, что к завершению 2025 года системы ИИ превзойдут любые человеческие интеллектуальные способности. Он уверен, что вероятность того, что ИИ обгонит совокупный человеческий интеллект к 2030 году, достигает 100%.
Разработчики стартапа Writer, специализирующегося на создании ИИ-программ, утверждают, что обучение на основе синтезированных данных позволяет экономить ресурсы. Например, разработка модели Palmyra X 004, использующей преимущественно синтетический источник данных, обошлась всего в $700 тысяч, тогда как аналогичная по масштабу модель компании OpenAI стоила $4,6 миллиона.
Современные ИИ-системы, включая широко используемые крупные языковые модели (LLM), опираются на колоссальный массив данных, стараясь задействовать все возможные высококачественные источники для обучения. До 2015 года главным препятствием для развития технологий ИИ были ограниченные вычислительные мощности, однако в последнее десятилетие технологический прогресс начал опережать темпы генерации новых данных для тренировочных наборов. С появлением мощных чипов многие специалисты в сфере ИИ ещё в 2020 году забеспокоились, что нехватка качественной информации для обучения ИИ-моделей неизбежна.
Бывший старший исследователь OpenAI Илья Суцкевер также придерживается мнения, что будущее принадлежит синтезированным данным. Он прогнозирует, что в отличие от нынешних ИИ-механизмов, будущие системы будут способны решать задачи поэтапно, имитируя ход человеческих мыслей.
Сооснователь стартапа Anthropic Джек Кларк утверждает, что их ИИ-модели были обучены на значительной доле всей информации, которая когда-либо существовала в интернете.
Между тем, технический руководитель OpenAI Мира Мурати летом 2024 года не предоставила однозначного ответа на вопрос о том, применялись ли данные из соцсетей при обучении модели Sora. Эти факты свидетельствуют о том, что ведущие игроки в области ИИ уже сталкиваются с недостатком доступного материала для обучения своих моделей и могут прибегать к источникам, чье использование вызывает вопросы. В частности, против разработчика ChatGPT, компанию OpenAI, регулярно подают судебные иски за нарушение авторских прав, что вынудило её увеличить штат юристов.
Технологические корпорации, включая такие компании, как OpenAI и Microsoft, уже активно внедряют синтетические данные для обучения своих ключевых ИИ-моделей. Согласно оценкам аналитической фирмы Gartner, около 60% данных, задействованных в работе нейросетей, специально созданы. Однако существует риск, что такой подход сделает ИИ-модели более склонными к предвзятости и ограниченности, ведь специально подготовленный учебный материал неизбежно основывается на существующих источниках.
В мае 2024 года Центр Искусственного Интеллекта, Ориентированного на Человека (HAI) при Стэнфордском университете опубликовал доклад о развитии ИИ. В первом разделе документа указывается, что эксперты прогнозируют истощение общедоступных текстовых данных в период с 2026 по 2032 год. Ранее эта группа исследователей предполагала, что нехватка качественных выборок для языковых моделей произойдет уже в 2024 году, но позже пересмотрела свой прогноз. Что касается визуальной информации — изображений и видео, — здесь ученые ожидают дефицита данных для машинного обучения лишь к 2038–2046 годам.
Кроме того, отмечается возможность манипуляции результатами работы ИИ через обучение на неподтвержденной информации.
Эксперты Нью-Йоркского университета (США) предупреждают о потенциальных угрозах, связанных с обучением ИИ-моделей на недостоверных данных. Результаты этого исследования опубликованы в журнале Nature.
Учёные утверждают, что большие языковые модели (LLM) будут допускать ошибки, если их обучать на ложной информации или намеренно предоставлять им антинаучные данные. Исследования показали, что даже при уровне дезинформации в 0,001% нейросеть может начать генерировать значительное число неправильных ответов.
Для эксперимента учёные выбрали 20 тем из трёх медицинских направлений: общей медицины, нейрохирургии и фармакологии, используя базу данных The Pile. Чтобы проверить влияние дезинформации на процесс обучения, они использовали модель GPT 3.5. Оказалось, что нейросети не только передавали неверную информацию в ответ на прямые запросы, но и начинали ошибаться в смежных вопросах. Это открывает новые возможности для манипуляций с ИИ.
Так, при уровне дезинформации в 0,01% LLM допускает ошибки в 10% ответов. Если уменьшить долю фальшивых учебных материалов до 0,001%, то модель начинает ошибаться в 7% случаев.
Исследователи подчеркивают, что пользователи часто доверяют информации, предоставляемой чат-ботами, не перепроверяя её у экспертов. Именно поэтому они настаивают на важности тщательной проверки данных, используемых для обучения моделей.