Чуда AGI НЕ БУ-ДЕ-Т ! .Yann LeCun про ограничения всех LLM.

18 августа 2025, 02:33
|
Мален Кихрен

Следующий разговор с Ян Ликун — третий раз на этом подкасте. Он главный научный сотрудник по искусственному интеллекту в МЕТА, профессор в Нью-йоркском университете, лауреат премии Тьюринга и одна из ключевых фигур в истории искусственного интеллекта. Он и Мэт активно поддерживают открытое развитие ИИ, выпуская многие свои крупнейшие модели, включая Лама 2 и, возможно, Лама 3.

Ян также является яростным критиком тех, кто предупреждает о грядущей угрозе и экзистенциальной опасности от HI. Он уверен, что AGI будет создано, но он будет полезным. Оно не выйдет из-под контроля человека и не будет доминировать или уничтожать человечество. В данный момент на фоне быстрого развития ИИ это достаточно спорная позиция. Поэтому было интересно наблюдать, как Ян вовлекается в яркие и увлекательные обсуждения в интернете, как и в этом разговоре.

Привет, меня зовут Тр. Если тебе всегда интересно было нейросеть и как это можно применять в бизнесе, каким образом новые функции использовать, какие не использовать, то заходи ко мне в Telegram-канал. Я там выставляю мои последние какие-то выводы, какие-то лекции, какие-то лайфхаки, ссылочки и так далее.

Интеллектуальное поведение включает в себя несколько характеристик, таких как понимание физического мира, память, рассуждение и планирование. Эти качества важны для умных систем, включая людей и животных. В отличие от этого, большие языковые модели (LLM) не обладают такими способностями или проявляют их на примитивном уровне. Они не понимают физический мир, не имеют постоянной памяти, не могут эффективно рассуждать или планировать.

Ожидание, что LLM станут по-настоящему умными без этих возможностей, ошибочно. Хотя авторегрессионные LLM полезны и поддерживают приложения, им не хватает ключевых компонентов, необходимых для достижения интеллекта на уровне человека.

Эти модели обучаются на огромных объёмах текста — обычно около 10 триллионов токенов, что эквивалентно примерно 20 триллионам байт данных. Прочтение такого объёма заняло бы 170 000 лет при 8 часах в день, что свидетельствует о гигантском накоплении знаний. Однако, по сравнению с сенсорным вводом четырёхлетнего ребёнка, составляющим около квадриллиона байт, LLM представляют собой ограниченные данные, подчёркивая, что большинство знаний приобретается через взаимодействие с реальным миром, а не через язык.

Философы и когнитивные учёные часто спорят о том, нужно ли интеллекту опираться на реальность, и большинство склоняется к тому, что это необходимо. Интеллект требует взаимодействия с богатой средой, которую язык не может адекватно представить. Многие задачи включают манипуляции с ментальными моделями, не связанными с языком.

Специалисты в области компьютерного зрения утверждают, что ИИ должен быть воплощён в реальном мире, в то время как сторонники НЛП могут не согласиться. Сложности реального мира часто трудно представить в компьютерах. Парадокс Моравица подчёркивает, что хотя компьютеры могут превосходно выполнять сложные задачи, такие как шахматы, они с трудом справляются с повседневными делами, такими как вождение или простые домашние задания.

Несмотря на то, что LLM проходят экзамены, им не хватает способности быстро осваивать практические навыки, как у людей. Чтобы решить эту проблему, LLM смогут интегрировать визуальные представления через различные системы зрения, преобразуя изображения в списки токенов, совместимые с вводом LLM. Этот гибридный подход уже исследуется, но текущие LLM не обучены работать с полным пониманием мира.

Их обучение в основном связано с предсказанием пропущенных слов в тексте, что ограничивает их способность понимать контекст и интуитивную физику. Таким образом, несмотря на прогресс, методы обучения LLM накладывают ограничения на их возможности.

LLM никогда не сможет точно предсказать следующее слово. Вместо этого она создаёт распределение вероятностей для всех возможных слов в словаре. Она предсказывает токены, чтобы управлять неопределённостью, так как количество слов ограничено. Система выбирает слова с более высокой вероятностью. Это называется авторегрессионным предсказанием. И именно поэтому эти модели называются авторегрессионными LLM.

В отличие от человеческого общения, где мы планируем, что сказать независимо от языка, LLM генерирует слова последовательно, без внутреннего планирования. Человеческая мысль часто не зависит от языка. Например, воображение математической концепции не требует использования конкретного языка. LLM реагирует инстинктивно, извлекая ответы на основе накопленных знаний без осознанного планирования.

Хотя можно построить модель мира через предсказания, маловероятно, что это удастся сделать только через предсказание слов. Язык не обладает достаточной пропускной способностью для создания полных моделей мира. Такие модели требуют наблюдения за миром и понимания того, как действия влияют на его состояние. Цель состоит в том, чтобы предсказать состояние мира после действия без необходимости в подробном описании.

Генеративные модели, обученные на видео, сталкиваются с аналогичными трудностями, но на более сложном уровне. Прогнозирование последовательности видеокадров включает представление распределений в высокоразмерных пространствах, что трудно реализовать. Видео содержит больше информации, чем текст. Например, когда камера движется по комнате, предсказать все детали невозможно, такие как текстура дивана или картина на стене.

Один из подходов к решению этой сложности заключается в использовании скрытой переменной в нейросети, которая будет инкапсулировать невидимую информацию, необходимую для точных предсказаний пикселей. Однако это не дало результатов, несмотря на многочисленные попытки с различными моделями, включая GANs и VAE.

Мы также исследовали методы обучения эффективным представлением изображений или видео для задач классификации, но эти попытки в основном не увенчались успехом. В частности, системы, предназначенные для предсказания недостающих частей изображения или видео из искажённой версии, не дали положительных результатов.

Например, можно взять изображение, искажённое, а затем попытаться восстановить исходное, надеясь, что система разработает полезные представления для распознавания объектов или сегментации. Однако такой подход оказался неэффективным, хотя он работает хорошо для текста.

Основная проблема заключается в том, что обучение системы восстановлению изображений из искажённых версий не даёт хороших представлений. Такие техники, как нойзинговые автоэнкодеры или варианты MAE (Masked Autoencoder), не работают в этом контексте. Напротив, когда та же архитектура обучается с использованием контролируемого обучения с маркированными данными, появляются эффективные представления, что значительно улучшает производительность распознавания.

Альтернативный подход — совместное внедрение. Вместо восстановления искажённого изображения мы пропускаем как полное, так и искажённое изображение через энкодеры и обучаем предсказатель, чтобы он вывел полное представление из искажённого. Этот метод, называемый Joint Embedding Predictive Architecture (JEPA), требует надёжной стратегии обучения.

Для этого используется традиционное контрастивное обучение, при котором пара изображений — одно оригинальное и одно искажённое — сравниваются, чтобы обеспечить схожие представления для одинаковых объектов и разнообразные для разных объектов. Однако недавно были введены неконтрастивные методы, независящие от известных негативных примеров, ориентирующиеся на разные представления одного и того же ввода. Это упрощает процесс обучения, устраняя необходимость предсказания всех пикселей ввода.

Вместо этого JEPA нацелен на извлечение легко предсказуемой информации, что позволяет системе учить абстрактные представления, отфильтровывая несущественные детали, как люди описывают явления на разных уровнях абстракции. В языке абстракция позволяет напрямую предсказывать слова, в то время как для восприятия изображения требуется больше избыточности для захвата структуры.

Самостоятельное обучение может столкнуться с трудностями в языке из-за его меньшей избыточности по сравнению с сенсорными данными. Хотя объединение языка с изображением может улучшить модели, сначала нужно разработать системы, которые действительно понимают мир.

В настоящее время мы сосредоточены на таких методах, как методы, основанные на дистилляции, включая BIOL, JEPA и DINO. Эти методы включают пропуск изображения через энкодер для получения представления, затем применение преобразований для эффективного обучения системы.

Процесс включает в себя запуск того же энкодера с некоторыми вариациями и обучение предсказателя, который может быть простым или иногда отсутствовать. Этот предсказатель должен предсказать представление исходного неиспорченного ввода из искажённого. Обучается только та часть сети, которая получает искажённый ввод. Но поскольку они делят веса, изменение одного также меняет другое.

Для предотвращения срыва системы разработаны различные техники, чтобы она не игнорировала ввод. Два метода, которые мы разработали — IDPA — эффективны в этом плане. В одном из сценариев изображение искажается путём изменения его обрезки, размера, ориентации или цвета, что снижает его качество. Для JEPA достаточно маскировать определённые области.

Этот метод обучает энкодер и предсказатель оценивать оригинальное представление изображения из искажённой версии. IDPA не требует знания специфики изображения, в то время как требует его для таких задач, как геометрические преобразования.

Недавнее расширение VGPA применяет этот принцип к видео. Здесь сегменты видеокадров маскируются в последовательности, обычно из шестнадцати кадров, и система обучается предсказывать полное видео из частично замаскированной версии. Этот подход позволяет точно классифицировать действия в видео.

Предварительные результаты показывают, что представление может указывать, является ли видео физически правдоподобным, например, выявлять резкие изменения в местоположении объектов. Это может в дальнейшем помочь роботизированным системам, которые могут требовать изменённого подхода, где видео либо сдвигается по времени, либо часть его маскируется.

Например, если известен угол колеса автомобиля, система может предсказать последствия, создавая внутреннюю модель мира для планирования. Эта внутренняя модель позволяет планировать последовательности действий для достижения целей, в отличие от моделей вроде LLM, которые не обладают такой способностью.

С помощью такой модели можно предсказывать результаты и планировать действия для минимизации целевой функции, аналогично классическому предиктивному управлению траекторией, применяемому с шестидесятых годов.

Иерархическое планирование необходимо для сложных действий. Например, путешествие из Нью-Йорка в Париж. На высоком уровне моё местоположение можно представить через разложение цели на две подцели: сначала доехать до аэропорта, затем сесть на самолёт до Парижа.

Для первой подцели целевая функция — расстояние до аэропорта. Поэтому нужно вызвать такси в Нью-Йорке. Чтобы попасть в такси, нужно встать со стула, дойти до лифта, спуститься на улицу. Этот процесс требует физической активности, которую невозможно заранее спланировать на уровне миллисекунд, так как для этого нужна обширная информация о доступности такси и пробках.

Иерархическое планирование важно для действий и перепланирования в реальном времени, но AI пока плохо справляется с выбором правильных уровней представления. Language models могут отвечать на отдельные вопросы о планировании, если обучены на похожих сценариях, но не способны управлять мелкими физическими действиями или незнакомыми ситуациями.

Большинство планов люди не изобретают заново, а усваивают через опыт, который намного богаче языка. Для связывания низкоуровневых действий с абстрактными представлениями нужны системы вроде JEPA, которые позволяют поднимать уровень абстракции без восстановления всех деталей.

Language models, включая авторегрессивные и двунаправленные, используют самонаблюдаемое обучение. Этот метод, как в модели BERT, искажал текст и обучал модель его восстанавливать, что дало значительный прогресс в понимании и переводе множества языков.

Авторегрессивные language models предсказывают слова, опираясь только на предыдущие слова, и их эффективность растёт с увеличением размера и объёма данных. Хотя эти системы впечатляют и умеют многое, важно понимать их ограничения и искать пути их преодоления.

Это результат более чем 10 лет исследований самонаблюдаемого обучения, которое выявляет внутреннюю структуру входных данных без обучения под конкретную задачу. Изучением представлений я занимаюсь почти 40 лет.

Поначалу мы добивались успеха только через супервизорное обучение. Затем в начале 2000-х вместе с Йошуа Бенджио и Джеффом Хинтоном возродили интерес к ненаблюдаемому обучению. Однако супервизорное обучение оказалось эффективным при наличии больших данных и вытеснило ненаблюдаемые методы на время.

С 2014 года я целенаправленно возрождал самонаблюдаемое обучение для текста, изображений, видео и аудио. Это привело к успехам в многоязычном переводе и распознавании речи, например, в системе Wave2Vec, которая требует минимум размеченных данных.

Сейчас мы можем в реальном времени переводить речь на сотни языков, используя дискретные внутренние представления речи.

Несмотря на десятилетние попытки обучить представление изображений через предсказание видео, нам не удалось добиться успеха с генеративными моделями. Мы отказались от предсказания пикселей в пользу совместного встраивания в пространстве представлений, показав, что генеративные модели не обязательно дают качественные реальные представления.

Хотя генеративный AI популярен, я не советую полагаться только на него для достижения уровня человеческого интеллекта. Language models не имеют общего опыта, который формирует высокоуровневые концепции и которые мы приобретаем через взаимодействие с реальным миром с раннего детства.

Многое из того, что мы понимаем с младенчества, отсутствует в текстах. Примерно 16 000 часов бодрствования ребёнка и его сенсорный опыт критически важны для формирования базовых понятий вроде гравитации и намерений. Современные AI-системы лишены этого опыта.

Кроме того, Language Models создают токены вероятностно, и с каждым новым токеном вероятность ошибки увеличивается, усугубляя проблему из-за проклятия размерности.

Чтобы устранить ограничения, можно донастроить систему, заставляя её отвечать на разные вопросы, так как многие из них похожи. Так можно покрыть примерно 80% вопросов, собирая данные и совершенствуя систему для них.

Однако остаётся огромное число запросов, неохваченных обучением, что составляет лишь малую часть всех возможных запросов. Система хорошо работает на обученных примерах, но может давать бессмысленные ответы на незнакомые, особенно если использовать случайные последовательности символов или смешения языков.

Эта проблема называется проблемой длинного хвоста и широко распространена в социальных сетях. Хотя можно настроить систему для частых запросов, длинный хвост слишком велик, чтобы охватить его полностью. В итоге система ведёт себя как большая таблица поиска, что не идеально.

Системы должны уметь рассуждать и планировать. Уровень рассуждений у больших языковых моделей (LLM) пока примитивный, так как вычислительные усилия на один токен остаются постоянными независимо от сложности вопроса. Это отличается от человеческого мышления, где мы уделяем больше ресурсов сложным задачам.

В будущем диалоговые системы смогут лучше рассуждать и планировать. Важнейшим станет умение строить ответ в уме до его озвучивания, формируя мысленную модель, помогающую оформить мысли. Современные LLM этой способностью не обладают.

Это похоже на разницу между интуитивным мышлением (система 1) и осознанным мышлением (система 2). У людей инстинктивные задачи и задачи, требующие сознательного планирования, сильно различаются.

Чтобы системы могли планировать, им нужно перейти от авторегрессивного предсказания токенов к методам скрытого вывода переменных, аналогичным вероятностным или графовым моделям. В таком подходе запрос — это наблюдаемые переменные, а модель оценивает качество потенциальных ответов через скалярный выход.

Если ответ хороший, значение большое, если плохой — маленькое. Представьте модель, которая находит хороший ответ, минимизируя это число. Это энергетическая модель. Вы не перебираете строки текста, а работаете в абстрактном пространстве представлений, развивая мысли, стремясь уменьшить скалярный выход модели.

Это процесс оптимизации для вывода, а не для обучения. Имея абстрактное представление мысли, его подают на простой авторегрессивный декодер, который превращает его в текст. Процесс включает планирование ответа через оптимизацию до его превращения в текст.

Сначала запрос через энкодер преобразуется в представление, которое при необходимости модифицируется для достижения хорошего ответа под управлением функцией стоимости.

Обучение системы оценки качества ответов происходит через оптимизацию в дифференцируемой системе. Нейронная сеть оценивает совместимость входа X (например, изображение или видео) и предложения И ответа, выдавая ноль для совместимых пар и положительное число для несовместимых.

Систему обучают, показывая правильные пары X и И, заставляя сеть выдавать ноль на них. Чтобы сеть не начала выдавать ноль всегда, применяют контрастный метод: показывают несовместимые пары, заставляя сеть увеличивать их энергию.

Однако при большом пространстве контрастные методы требуют много примеров, поэтому используют неконтрастные методы, которые минимизируют объём пространства с низкой энергией, повышая энергию вне правильных областей. Это эффективнее, так как локальные изменения в пространстве XCI автоматически увеличивают энергию вокруг.

Функция обработки языка включает текст X и его продолжение И. Эффективность зависит от внутренней структуры системы. Если система имеет скрытую переменную Z, которую можно настроить для минимизации выходной энергии, то Z представляет собой хорошую мысль, которую можно перевести в UI.

Это помогает избежать коллапса и поддерживать высокую энергию для незнакомых понятий. В нейронных языковых моделях (NLM) этот процесс часто происходит неявно. Увеличение вероятности правильного слова автоматически снижает вероятность неправильных из-за ограничения общей вероятности.

Минимизация кросс-энтропии при обучении повышает вероятность правильных слов и снижает вероятность неправильных.

Для обработки визуальных данных мы используем архитектуры вроде ODPA с объединённым представлением. Совместимость изображений и их искажённых версий оценивается через ошибку предсказания, отражающую энергию системы.

Цель — обучить эффективные модели мира на основе наблюдений и использовать их для планирования без необходимости в reinforcement learning (RL). Если только критерии успеха не определены неясно, модель мира корректируется, если обнаруживаются неточности в самой модели или в целевой функции.

Исследование среды, называемое любопытством, позволяет безопасно улучшать модель мира. При обучении конкретным задачам предварительно освоенные представления и модели донастраиваются с помощью RL.

Human feedback (HF) помогает повысить качество работы системы через разные методы супервизированного обучения. Например, можно оценивать несколько ответов модели, строя модель награды, которая предсказывает качество ответа и донастраивает систему на лучшие результаты.

Хотя сейчас HF в основном используется для дообучения, его применение в планировании может быть эффективнее.

AI-системы часто отражают общественные предубеждения, присутствующие в обучающих данных, что вызывает тревогу. Возникает вопрос: можно ли создать абсолютно беспристрастный AI?

Ответ категоричен: нет. Предвзятость субъективна. Разные люди воспринимают её по-разному. Хотя есть неоспоримые факты, большинство мнений можно выразить по-разному. Поэтому полностью беспристрастная система невозможна.

Решение здесь аналогично подходу либеральной демократии к СМИ. Необходима свобода и разнообразие. Свобода слова критична, чтобы избежать монополии информации, которая противоречит демократии и тормозит развитие идей и науки.

Наше взаимодействие с цифровым миром будет всё больше опосредовано AI-системами. Например, умные очки смогут подключаться к AI, предоставляя информацию о достопримечательностях или переводя речь в реальном времени.

Однако важно, чтобы такие системы не принадлежали лишь нескольким компаниям, контролирующим всё человеческое знание. Разнообразие в AI столь же необходимо, как и в прессе.

Чтобы создать разнообразных AI-помощников, необходимо, чтобы разные группы, индивидуалы, государства и организации могли донастраивать Open Source AI-системы.

Например, французское правительство твёрдо настроено не позволить американским компаниям управлять цифровым пространством своих граждан, чтобы защитить демократию и локальные культуры. В Индии реализуются проекты, адаптирующие AI к местным языкам, улучшая доступ к важной информации в регионах вроде Сенегала.

Open source-платформы могут поддерживать создание AI-систем, отражающих разные языки, культуры и взгляды. Они позволяют компаниям адаптировать системы под конкретные задачи, например, издателям использовать собственные базы данных.

Будущее AI будет зависеть от таких платформ, позволяя разным группам создавать собственные решения и избегать единоличных предубеждений.

Бизнес-модели в этой отрасли могут включать услуги, финансируемые рекламой или прямыми платежами от компаний, нуждающихся в AI-решениях. Например, местная пиццерия может использовать AI для общения с клиентами, оплачивая услугу за счёт заказов.

При большом числе пользователей Open Source модель остаётся выгодной для бизнеса. Такая модель позволяет другим создавать аналогичные решения и конкурировать, предлагая донастроенные модели компаниям.

Мета планирует использовать свою огромную базу пользователей и клиентов для создания полезных продуктов и получения прибыли. Открывая свой базовый AI, Мета стимулирует разработку приложений, которые могут приносить пользу её пользователям, и при желании приобретать наиболее успешные проекты.

Миллионы загрузок и вклад сообщества ускоряют развитие. При этом открытое распространение модели не мешает получать доход.

Дизайнерам нужно учитывать политическую приемлемость своих систем, чтобы избежать оскорбления пользователей, что усложняет создание системы, воспринимаемой как беспристрастное.

Любое направление может быть воспринято как предвзятое различными группами, и существуют ограничения на создаваемый контент, что требует установки защитных механизмов для безопасности.

Архитектура может включать такие механизмы, обеспечивая базовую безопасность, согласованную большинством, при этом позволяя дополнительную настройку для конкретных сообществ.

Исследования показывают, что наличие модели большого языка (LLM) не способствует созданию опасного оружия, так как для реализации в реальном мире требуется экспертное знание, которое LLM не может предоставить.

Несмотря на доступные инструкции, создание оружия остаётся сложным, и ни одна страна не использует биологическое оружие, так как оно запрещено международными договорами.

Ожидается, что будущие версии моделей, таких как Лама, будут улучшены и получат мультимодальные возможности. Сроки совершенствования способностей к рассуждению и планированию неизвестны, но прогресс будет отслеживаться через публикации исследований.

В настоящее время ведётся обучение систем на видео с усилиями в таких организациях, как DeepMind и UC Беркли. Ожидаются обнадёживающие разработки, особенно в моделях, обучающих представлением для задач планирования и усиленного обучения.

Я сотрудничаю с различными людьми по грантам через свою аффилиацию с NYU и МЕТА, поскольку лаборатория Broccoli связана с ними.

Я очень рад направлению, в котором развивается машинное обучение и ИИ, как и 10 лет назад, когда началась работа в МЕТА. Есть потенциал для достижения интеллекта, сопоставимого с человеческим, с системами, которые могут понимать, запоминать, планировать и рассуждать. И надеюсь, что мы достигнем этого до моей пенсии.

Хотя масштабирование важно, этого недостаточно. Нам всё ещё не хватает вычислительных мощностей, чтобы соответствовать человеческому мозгу. И на это может потребоваться десятилетие, особенно с точки зрения энергоэффективности.

Текущий прогресс в основном связан с инновациями в архитектуре, а не в силиконовых технологиях, особенно в реализации популярных архитектур, таких как трансформеры.

Существенные улучшения в аппаратуре необходимы, включая новые принципы и технологии производства для снижения потребления энергии, так как современные графические процессоры потребляют гораздо больше энергии, чем человеческий мозг.

Появление ИИ с общими способностями не произойдёт внезапно. Это будет постепенный процесс. Разработка систем, которые учат с помощью видео и могут запоминать, всё ещё далека, и необходимо создать множество фундаментальных техник.

Интеграция таких систем может занять 10 лет или больше, особенно в области рассуждений и планирования в различных ситуациях, как у человеческого мозга.

Интеллект не является линейным и легко измеримым. Это совокупность различных навыков. Сравнение интеллекта между видами сложное, так как люди могут быть сильны в некоторых областях, а другие виды — в других.

Интеллект включает набор навыков и способность эффективно учить новые.

Беспокойство по поводу катастрофических рисков ИИ часто основываются на ошибочных предположениях. Идея внезапного появления сверхинтеллекта вводит в заблуждение.

Мы будем развивать системы, которые постепенно имитируют характеристики человеческого интеллекта, начиная с уровней, сопоставимых с кошками или попугаями, и постепенно улучшая их способности.

Мы внедряем защитные механизмы, чтобы обеспечить правильное поведение интеллектуальных систем. Это потребует совместной работы многих людей для создания контролируемого и безопасного ИИ, где успешные системы могут нейтрализовать любые отклоняющиеся.

Страх, что интеллектуальная система непременно будет стремиться к доминированию, является заблуждением. В отличие от социальных видов, ИИ не будет обладать врождённым стремлением к доминированию, так как эта черта есть у некоторых животных, но не у других, как, например, у орангутанов.

Системы ИИ будут разработаны так, чтобы быть подчинёнными людям. Хотя в настоящее время большие языковые модели (LLM) нельзя контролировать, с ориентированными целями могут включать защитные механизмы, которые приоритетно обеспечат безопасность человека.

Разработка этих механизмов будет сложной и итеративной, как эволюция безопасности турбореактивных двигателей, совершенствовавшихся десятилетиями. Лучше спроектированный ИИ будет inherently безопаснее и надёжнее.

В будущем взаимодействие с цифровым миром будет происходить через вашего AI-ассистента, который будет фильтровать манипулятивные системы, AI-спам-фильтры для электронной почты.

Прогресс в разработке AI будет продолжаться главным образом благодаря инновациям в индустрии, а не государственным или военным организациям. Прорывы будут быстро распространяться, стимулируя инвестиции в разработку ИИ.

Успех американской технологической индустрии, особенно в Силиконовой долине, связан с быстрым обменом информации, когда сотрудники переходят из одной компании в другую. Этот поток знаний помогает региону оставаться лидером в инновациях.

Однако существует естественный страх перед новыми технологиями и их воздействием на общество. Люди инстинктивно сопротивляются угрозам для своей культуры, рабочих мест и будущего.

Исторические технологические революции часто сталкивались с критикой СМИ, которые связывали общественные проблемы с этими изменениями. Например, джаз и комиксы когда-то обвинялись в безработице среди молодёжи.

Основной вопрос: примем ли мы изменения или будем им сопротивляться, и какие угрозы реальные, а какие воображаемые.

Открытые платформы могут способствовать разнообразию в помощниках на базе ИИ, отражая различные культуры и мнения, что важно для сохранения демократии.

Сосредоточение власти в собственных системах ИИ представляет большую угрозу, чем воображаемые опасности, так как это может привести к узкому информационному потоку, контролируемому несколькими компаниями.

Мы должны решить, доверяем ли мы институтам действовать этично. Несмотря на наличие плохих актёров, их технологии не смогут превзойти хорошие.

Будущее робототехники, вероятно, будет развиваться в следующем десятилетии, требуя систем, которые понимают мир для выполнения сложных задач.

Современная робототехника сильно зависит от заранее запрограммированных действий и тщательного планирования. Для создания полностью автономных роботов, например, уровня пять для вождения, необходимы системы, способные обучаться и осознавать свою среду.

Прогресс в робототехнике зависит от развития ИИ. Основные трудности включают обучение моделей мира через наблюдение и планирование действий в нефизических контекстах, таких как интернет.

Планирование не ограничивается физическими действиями, оно также включает выполнение задач в диалоговых и интеллектуальных системах. Несмотря на некоторые исследования в этой области, она всё ещё недостаточно развита.

Иерархическое планирование важно для многих наших действий, например, для планирования поездки из Нью-Йорка в Париж. Однако ИИ не имеет демонстрации изученного иерархического планирования на различных уровнях представлений.

Мы можем внедрить двухуровневое иерархическое планирование. Например, направить робота из одной комнаты в другую, избегая препятствий. Но эти уровни должны быть заранее определены. Определены. Мы можем обучить ИИ учить иерархические представления восприятий, но аналогия для планов действий пока не ясна. ИИ может повысить человеческий интеллект, став умными помощниками, которые могут превзойти нас в различных задачах. Это не должно восприниматься как угроза. Скорее, это похоже на управление командой способных людей.

Интеллектуальные машины могут улучшить нашу жизнь, так же как образование, книги и интернет расширили доступ к знаниям. Влияние ИИ на человечество может быть аналогично изобретению печатного пресса, который сделал информацию доступной для широкой аудитории, стал катализатором просвещения и революции.

Однако это также привело к двухсотлетним религиозным конфликтам в Европе, когда возникли разные интерпретации Библии. Двухсотлетний запрет на печатный пресс в Османской империи на арабском языке был направлен на сохранение религиозного контроля и обеспечение дохода каллиграфов. Это поднимает вопрос, кого мы защищаем, регулируя и сегодня.

Эксперты считают, что технологические достижения не приведут к массовой безработице, а вызовут постепенное изменение профессий. Будущее рабочих мест непредсказуемо, как и было два десятилетия назад, когда разработка мобильных приложений стала востребованной карьерой. Невозможно предсказать всё, но вы приводите веские аргументы.

Я верю, что люди в своей основе хороши, и если открытый ИИ поможет улучшить их интеллект, это усилит их доброту. Многие пессимисты сомневаются в этой доброте, не веря, что люди или институты будут поступать правильно. Мы оба верим в человечество, и я благодарен вам за поддержку открытого исходного кода, который делает исследования и ИИ доступными.

510

Читайте на SMART-LAB:

Сможет ли ИИ обогнать рынок? Выясняем на «Финам Арене»

Команда Trade API «Финама» запустила проект — « Финам Арена» — в рамках которого исследует возможности нескольких крупных языковых...

Финам Брокер

14:33

Рынок ипотеки в феврале: рост по рыночным программам и ожидаемое снижение по льготным

Выдача ипотеки в феврале: оценка Аналитического центра ДОМ.РФ

ДОМ.РФ

14:28

Клиенты рекомендуют Займер 💚

Клиентская лояльность — одна из ключевых метрик для компаний в сфере услуг. В случае банков и МФО высокая лояльность позволяет экономить на...

Займер

13:00

Хэдхантер. Ситуация на рынке труда в феврале. Мы в … трудном положении

Вышла статистика рынка труда за февраль 2026 года, которую Хедхантер публикует ежемесячно, что же там интересного: Динамика...

Валентин Погорелый

02 марта 2026, 17:08

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Чуда AGI НЕ БУ-ДЕ-Т ! .Yann LeCun про ограничения всех LLM.

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Мален Кихрен

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Чуда AGI НЕ БУ-ДЕ-Т ! .Yann LeCun про ограничения всех LLM.

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Мален Кихрен