Блог им. Koleso
В стране искусственного интеллекта технологии переходят от выдающихся к устаревшим со скоростью света.
Всего 18 месяцев назад выпуск Chatgpt, чат-бота Openai, вызвал безумие в области искусственного интеллекта. Сегодня его полномочия стали обычным явлением. Несколько фирм (таких как Anthropic, Google и Meta) с тех пор представили версии своих собственных моделей (Claude, Gemini и Llama), улучшая Chatgpt различными способами. Жажда нового только усилилась.
В марте Anthropic запустила Claude 3, который превзошел предыдущие топ-модели от Openai и Google в различных таблицах лидеров.
9 апреля Openai вернула себе корону (по некоторым показателям), доработав свою модель.
18 апреля Meta выпустила Llama 3, которая, согласно предварительным результатам, является наиболее функциональной открытой моделью на сегодняшний день.
Openai, вероятно, произведет фурор где-то в этом году, выпустив gpt-5, возможности которого могут превосходить любую текущую модель большого языка (llm).
Если верить слухам, следующее поколение моделей будет еще более замечательным — например, способным выполнять многоэтапные задачи, а не просто реагировать на подсказки, или тщательно анализировать сложные вопросы вместо того, чтобы выбалтывать первые доступные алгоритмы. отвечать.
Тем, кто считает, что это обычная техническая шумиха, следует принять во внимание следующее: инвесторы крайне серьезно относятся к поддержке моделей следующего поколения. Ожидается, что обучение gpt-5 и других моделей следующего поколения будет стоить миллиарды долларов.
Сообщается, что Openai также сотрудничает с технологическим гигантом Microsoft для строительства нового центра обработки данных стоимостью 100 миллиардов долларов. Если судить только по цифрам, кажется, что в будущем нас ждет безграничный экспоненциальный рост. Это перекликается с точкой зрения, разделяемой многими исследователями искусственного интеллекта, называемой «гипотезой масштабирования», а именно: архитектура современных LLM находится на пути к феноменальному прогрессу. Все, что нужно, чтобы превзойти человеческие возможности, согласно гипотезе, — это больше данных и более мощные компьютерные чипы.
Однако если присмотреться к техническому уровню, то можно увидеть некоторые серьезные препятствия.
Данные вполне могут представлять собой самое непосредственное узкое место.
По оценкам исследовательской компании Epoch ai, запасы высококачественных текстовых данных в общедоступном Интернете иссякнут к 2026 году. Это заставило исследователей искать новые идеи.
Некоторые лаборатории обращаются к частной сети, покупая данные у брокеров и новостных веб-сайтов. Другие обращаются к огромным объемам аудио- и визуальных данных в Интернете, которые можно использовать для обучения все более крупных моделей на протяжении десятилетий.
Видео может быть особенно полезно при обучении моделей ИИ физике окружающего мира. Если модель может наблюдать летящий по воздуху мяч, ей будет легче вывести математическое уравнение, описывающее движение снаряда. Ведущие модели, такие как gpt-4 и Gemini, теперь являются «мультимодальными» и способны работать с различными типами данных.
Когда данные больше невозможно найти, их можно создать. Такие компании, как Scale ai и Surge ai, создали большие сети людей для генерации и аннотирования данных, включая ученых-докторантов, решающих задачи по математике или биологии. По оценкам одного руководителя ведущего стартапа в области ИИ, это обходится лабораториям ИИ в сотни миллионов долларов в год.
Более дешевый подход предполагает создание «синтетических данных», при которых один LLM создает миллиарды страниц текста для обучения второй модели. Хотя этот метод может привести к проблемам: модели, обученные таким образом, могут потерять прошлые знания и генерировать нетворческие реакции.
Более плодотворный способ обучения моделей ИИ на синтетических данных — заставить их учиться в сотрудничестве или соревновании. Исследователи называют это «игрой с самим собой».
В 2017 году Google DeepMind, лаборатория искусственного интеллекта поискового гиганта, разработала модель под названием AlphaGo, которая после тренировки против самой себя победила чемпиона мира среди людей в игре Го. Google и другие фирмы теперь используют аналогичные методы в своих последних фильмах.
Распространение таких идей, как самостоятельная игра, на новые области является горячей темой исследований. Но большинство реальных проблем — от ведения бизнеса до работы хорошим врачом — более сложны, чем игра, и не имеют четких выигрышных ходов. Вот почему в таких сложных областях по-прежнему необходимы данные для обучения моделей от людей, которые могут различать ответы хорошего и плохого качества. Это, в свою очередь, замедляет ход событий.
Лучшее оборудование — еще один путь к более мощным моделям. Графические процессоры (GPU), изначально разработанные для видеоигр, стали популярными чипами для большинства программистов ИИ благодаря их способности параллельно выполнять интенсивные вычисления. Один из способов раскрыть новые возможности может заключаться в использовании чипов, разработанных специально для моделей искусственного интеллекта.
Cerebras, производитель микросхем из Кремниевой долины, в марте выпустил продукт, содержащий в 50 раз больше транзисторов, чем самый большой графический процессор. Построение модели обычно затрудняется тем, что данные необходимо постоянно загружать в графический процессор и выгружать из него по мере обучения модели. Гигантский чип Cerebras, напротив, имеет встроенную память.
Новые модели, которые смогут воспользоваться этими достижениями, будут более надежными и лучше смогут обрабатывать сложные запросы пользователей. Один из способов добиться этого — использовать более крупные «контекстные окна» — объем текста, изображений или видео, которые пользователь может ввести в модель при отправке запросов. Увеличение контекстных окон, позволяющее пользователям загружать дополнительную соответствующую информацию, также кажется эффективным способом борьбы с галлюцинациями — тенденцией моделей искусственного интеллекта уверенно отвечать на вопросы, используя вымышленную информацию.
Но в то время как некоторые разработчики моделей стремятся получить больше ресурсов, другие видят признаки того, что гипотеза масштабирования сталкивается с проблемами.
Физические ограничения — скажем, нехватка памяти или растущие затраты на электроэнергию — налагают практические ограничения на разработку более крупных моделей. Еще более тревожно то, что неясно, будет ли расширения контекстных окон достаточно для дальнейшего прогресса. Ян ЛеКун, ныне известный специалист по искусственному интеллекту в Meta, является одним из многих, кто считает, что ограничения текущих моделей искусственного интеллекта не могут быть устранены с помощью большего количества того же самого.
Поэтому некоторые ученые обращаются к давнему источнику вдохновения в области искусственного интеллекта — человеческому мозгу. Среднестатистический взрослый может рассуждать и планировать гораздо лучше, чем лучшие LLM, несмотря на то, что он использует меньше энергии и гораздо меньше данных.
«ИИ нуждается в более совершенных алгоритмах обучения, и мы знаем, что они возможны, потому что они есть в вашем мозгу».
Одной из проблем, по его словам, является алгоритм, по которому обучаются LLM, называемый обратным распространением ошибки. Все LLM представляют собой нейронные сети, расположенные по слоям, которые получают входные данные и преобразуют их для прогнозирования результатов. Когда LLM находится на этапе обучения, он сравнивает свои прогнозы с версией реальности, доступной в его обучающих данных. Если они расходятся, алгоритм вносит небольшие изменения в каждый уровень сети, чтобы улучшить будущие прогнозы. Это делает его вычислительно интенсивным и инкрементным.
Нейронные сети в современных LLM также неэффективно структурированы.
С 2017 года в большинстве моделей искусственного интеллекта используется тип архитектуры нейронной сети, известный как преобразователь («t» в gpt), который позволяет им устанавливать связи между битами данных, которые находятся далеко друг от друга в наборе данных. Предыдущие подходы с трудом могли обеспечить такие долгосрочные связи. Если бы трансформерную модель попросили, например, написать текст к песне, она могла бы в своей коде воспроизводить риффы на строки из многих куплетов ранее, в то время как более примитивная модель к тому времени, как она написала бы все, забыла бы все о начале. дошел до конца песни. Трансформаторы также можно запускать на нескольких процессорах одновременно, что значительно сокращает время их обучения.
Альберт Гу, ученый-компьютерщик из Университета Карнеги-Меллон, тем не менее считает, что время трансформаторов может скоро подойти к концу. Масштабирование их контекстных окон крайне неэффективно с вычислительной точки зрения: по мере того, как входные данные удваиваются, объем вычислений, необходимых для их обработки, увеличивается в четыре раза. Вместе с Три Дао из Принстонского университета доктор Гу предложил альтернативную архитектуру под названием Мамба. Если, по аналогии, трансформер читает все страницы книги сразу, то Мамба читает их последовательно, обновляя свое мировоззрение по мере продвижения. Это не только более эффективно, но и более точно соответствует тому, как работает человеческое понимание.
LLM также нужна помощь, чтобы научиться лучше рассуждать и планировать.
Андрей Карпати, исследователь, ранее работавший в Openai, объяснил в недавнем выступлении, что нынешние LLM способны мыслить только «системой 1».
У людей это автоматический образ мышления, участвующий в принятии поспешных решений. Напротив, мышление «системы 2» медленнее, более осознанно и предполагает итерацию. Для систем искусственного интеллекта для этого могут потребоваться алгоритмы, способные к так называемому поиску — способности наметить и изучить множество различных вариантов действий, прежде чем выбрать лучший. По духу это похоже на то, как игровые модели ИИ могут выбирать лучшие ходы после изучения нескольких вариантов.
Расширенное планирование с помощью поиска находится в центре внимания многих текущих усилий.
Доктор Лекун из Meta, например, пытается запрограммировать способность рассуждать и делать прогнозы непосредственно в систему искусственного интеллекта.
В 2022 году он предложил структуру под названием «Совместное внедрение прогнозирующей архитектуры» (jepa), которая обучена прогнозировать большие фрагменты текста или изображений за один шаг, чем нынешние модели генеративного искусственного интеллекта. Это позволяет сосредоточиться на глобальных характеристиках набора данных. Например, при анализе изображений животных модель, основанная на джепе, может быстрее сосредоточиться на размере, форме и цвете, а не на отдельных участках меха.
Есть надежда, что, абстрагируя вещи, jepa обучается более эффективно, чем генеративные модели, которые отвлекаются на несущественные детали.
Пока данные и вычислительная мощность не станут непреодолимыми препятствиями, модели на основе трансформаторов будут оставаться в фаворе.
Но поскольку инженеры внедряют их во все более сложные приложения, человеческий опыт будет оставаться важным при маркировке данных. Это может означать более медленный прогресс, чем раньше.
Чтобы новое поколение моделей искусственного интеллекта ошеломило мир, как это сделал Chatgpt в 2022 году, могут потребоваться фундаментальные прорывы.
P.S. Подписывайтесь на канал «Куда идем?, оставляйте комментарии, свой лайки/дизлайки, делитесь статьями. Это помогает продвигать информацию канала, благодаря чему больше ваших знакомым будут узнавать, что на самом деле происходит в России
цифр?
а неужто нет соревнований этих ИИ промеж собой на тему кто лучше ?
было бы интересно посмотреть
а я бы хотел послушать ИИ на тему прогнозирования будущего и просто сравнивать прогнозы и реальность
если ИИ победит будущее, то это будет жуть Ванга даже не зрячая могла, а ИИ пока не может
но все равно
вне сомнения ИИ нечто качественно новое в нашей жизни
но я почему то могу сравнить ИИ только с новой игрушкой у ребенка
вот вот начнут появляться ошибки ИИ и если крупные, то посмотрим на его будущее
ведь доверительность к ИИ опасная штучка
читал что уже пробуют доверить ИИ выносить приговоры в судах
для интереса посмотрел как ИИ сочиняет стихи- пока бурда получается
а ведь так просто — из малого количества слов сотворить некий образ
ан нет