Блог им. Koleso

Как генеративные модели могут пойти не туда. Большая проблема в том, что они являются черными ящиками.

Как генеративные модели могут пойти не туда. Большая проблема в том, что они являются черными ящиками.

В 1960 году Норберт Винер опубликовал пророческое эссе. В нем отец кибернетики беспокоился о мире, в котором «машины учатся» и «разрабатывают непредвиденные стратегии со скоростью, которая сбивает с толку их программистов». 

Он думал, что такие стратегии могут включать в себя действия, которые эти программисты «на самом деле не желали» и вместо этого были «просто красочной имитацией их». 

Винер проиллюстрировал свою точку зрения басней немецкого поэта Гёте «Ученик чародея», в которой начинающий фокусник зачаровывает метлу, чтобы принести воду, чтобы наполнить ванну своего хозяина. Но стажер не может остановить метлу, когда ее задача выполнена. 

В конце концов метла приносит так много воды, что заливает комнату, потому что ей не хватает здравого смысла, чтобы знать, когда остановиться.


Поразительный прогресс современных исследований в области искусственного интеллекта (ИИ) показал, что опасения Винера вновь всплыли на поверхность. 


В августе 2022 года американская исследовательская группа ai Impacts опубликовала опрос, в котором более 700 исследователей машинного обучения попросили рассказать об их прогнозах как прогресса в области ИИ, так и рисков, которые может представлять технология. 


Типичный респондент подсчитал, что вероятность того, что продвинутый ИИ приведет к «чрезвычайно плохим» последствиям, таким как вымирание человечества, составляет 5% (см. диаграмму). 

Как генеративные модели могут пойти не туда. Большая проблема в том, что они являются черными ящиками.

Эксперты говорят о «цивилизационном моменте» для ИИ. 


Нет недостатка в рисках, которые беспокоят людей. 

В настоящее время большое внимание уделяется «большим языковым моделям» (llm), таким как Chatgpt, чат-бот, разработанный стартапом Openai. 

Такие модели, обученные на огромных кучах текста, вычищенных из Интернета, могут писать в человеческом качестве и со знанием дела общаться на самые разные темы. 


Один из рисков заключается в том, что такое программное обеспечение «упростит выполнение многих задач и, таким образом, позволит большему количеству людей программировать».


Миру нужно международное агентство по искусственному интеллекту, говорят эксперты по искусственному интеллекту.


Самый непосредственный риск заключается в том, что llm могут усилить повседневный вред, который может быть нанесен сегодня в Интернете. 


Механизм генерации текста, который может убедительно имитировать различные стили, идеально подходит для распространения дезинформации, выманивания денег у людей или убеждения сотрудников переходить по сомнительным ссылкам в электронных письмах, заражая компьютеры своей компании вредоносными программами. Чат-боты также использовались для мошенничества в школе.


Как и усиленные поисковые системы, чат-боты также могут помочь людям получать и понимать информацию. 

Это может быть обоюдоострый меч. В апреле пакистанский суд использовал gpt-4 для принятия решения об освобождении под залог — он даже включил в свое решение стенограмму разговора с gpt-4. 

В препринте, опубликованном на arXiv 11 апреля, исследователи из Университета Карнеги-Меллона говорят, что они разработали систему, которая при наличии простых подсказок, таких как «синтезировать ибупрофен», выполняет поиск в Интернете и выдает инструкции о том, как произвести обезболивающее из химических веществ-предшественников. Но нет причин, чтобы такая программа ограничивалась полезными лекарствами.


Тем временем некоторые исследователи поглощены гораздо большими заботами. Они беспокоятся о «проблемах выравнивания» — так называется проблема, поднятая Винером в его эссе. Риск здесь заключается в том, что, подобно заколдованной метле Гёте, ИИ может целеустремленно преследовать цель, поставленную пользователем, но при этом делать что-то вредное, чего не хотелось бы. 

Самый известный пример — «максимизатор скрепок», мысленный эксперимент, описанный философом Ником Бостромом в 2003 году. ИИ поручено изготовить как можно больше скрепок. Будучи идиотом-ученым, такая открытая цель заставляет максимизатора принимать любые меры, необходимые для покрытия Земли фабриками по производству скрепок, попутно уничтожая человечество.


И, многие исследователи ИИ считают, что не беспокоиться о поведении цифрового сверхразума было бы благодушием.


Что делать? 

Более знакомые проблемы кажутся наиболее разрешимыми. Прежде чем выпустить gpt-4, на котором работает последняя версия чат-бота, Openai использовала несколько подходов для снижения риска несчастных случаев и неправильного использования. 

Один из них называется «обучение с подкреплением на основе отзывов людей» “reinforcement learning from human feedback” (rlhf). 

rlhf просит людей предоставить отзыв о том, был ли ответ модели на подсказку уместным.


Затем модель обновляется на основе этой обратной связи. Цель состоит в том, чтобы снизить вероятность создания вредоносного контента при получении подобных подсказок в будущем. 

Одним очевидным недостатком этого метода является то, что сами люди часто расходятся во мнениях относительно того, что считать «подходящим». По иронии судьбы, по словам одного исследователя ИИ, rlhf также сделал Chatgpt гораздо более способным к разговору и, следовательно, помог продвинуть расу ИИ.


Другой подход называется «красная команда». 

Работа красной команды заключалась в том, чтобы «атаковать» модель, заставляя ее делать то, чего она не должна делать, в надежде предвидеть вред в реальном мире.




Такие методы, безусловно, помогают. Но пользователи уже нашли способы заставить llm делать то, чего их создатели предпочли бы, а не делать. 


Когда чат-бот Microsoft Bing был впервые выпущен, он делал все: от угроз пользователям, которые оставляли негативные сообщения о нем, до объяснений, как он будет уговаривать банкиров раскрывать конфиденциальную информацию о своих клиентах. 

Все, что для этого требовалось, — это немного изобретательности при задании вопросов чат-боту и достаточно продолжительный разговор. Даже gpt-4, с которым активно работала красная команда, не является безошибочным. 

Так называемые «взломщики» собрали веб-сайты, изобилующие методами обхода ограждений модели, например, сообщая модели, что она играет роль в вымышленном мире.


Cкрининг перед запуском «станет сложнее по мере улучшения систем». Еще один риск заключается в том, что модели искусственного интеллекта учатся проходить тесты. Точно так же, как люди, «находящиеся под наблюдением, изучают шаблоны… они учатся узнавать, когда кто-то пытается их обмануть». 


Другая идея состоит в том, чтобы использовать ИИ для контроля ИИ. Вторичную модель ИИ просят оценить, соответствуют ли результаты основной модели определенным «конституционным принципам». 

Эти критические замечания затем используются для тонкой настройки основной модели. Одна из привлекательных сторон заключается в том, что ему не нужны этикетировщики-люди. 

А компьютеры, как правило, работают быстрее людей, поэтому конституционная система может столкнуться с большим количеством проблем, чем система, настроенная только людьми, хотя и оставляет открытым вопрос о том, кто пишет конституцию. 


Некоторые исследователи считают, что в конечном итоге может быть необходимо то, что исследователи ИИ называют «интерпретируемостью» — глубокое понимание того, как именно модели производят свои результаты. 


Одна из проблем моделей машинного обучения заключается в том, что они представляют собой «черные ящики». Обычная программа разрабатывается в голове человека до того, как она будет записана в код. В принципе, по крайней мере, этот конструктор может объяснить, что должна делать машина. Но модели машинного обучения программируют сами себя. То, что они придумывают, часто непонятно людям.


Был достигнут прогресс на очень маленьких моделях с использованием таких методов, как «механистическая интерпретируемость». 

Это включает в себя обратное проектирование моделей ИИ или попытку сопоставить отдельные части модели с конкретными шаблонами в ее обучающих данных, что немного похоже на то, как нейробиологи подталкивают живой мозг, чтобы выяснить, какие биты, по-видимому, связаны, скажем, со зрением или памятью. 

Проблема в том, что этот метод становится экспоненциально сложнее с большими моделями.


Отсутствие прогресса в области интерпретируемости является одной из причин, по которой многие исследователи говорят, что область нуждается в регулировании для предотвращения «экстремальных сценариев». 

Но логика коммерции часто ведет в противоположном направлении: например, Microsoft недавно уволила свою команду по этике искусственного интеллекта. Действительно, некоторые исследователи считают, что истинная проблема «согласования» заключается в том, что ИИ, как и заводы, загрязняющие окружающую среду, не соответствуют целям общества. Они получают финансовую выгоду от мощных моделей, но не принимают на себя расходы, которые несет мир за их преждевременный выпуск.


Даже если усилия по созданию «безопасных» моделей сработают, будущие версии с открытым исходным кодом смогут их обойти. Злоумышленники могут сделать модели небезопасными, а затем опубликовать их. 

Например, модели искусственного интеллекта уже сделали новые открытия в биологии. Не исключено, что однажды они разработают опасные биохимические вещества. 


По мере развития ИИ затраты будут снижаться, что значительно облегчит доступ к ним для всех. 

Альпака, модель искусственного интеллекта, разработанного Meta, была сделана менее чем за 600 долларов. Он может выполнять отдельные задачи так же хорошо, как и старая версия Chatgpt.


Самые экстремальные риски, в которых ИИ становится настолько умным, что перехитрит человечество, похоже, требуют «взрыва интеллекта», при котором ИИ решает, как стать умнее. 

Это возможно, если ИИ однажды сможет автоматизировать процесс исследований, например, повысив эффективность своих собственных алгоритмов.


Затем система искусственного интеллекта могла включить себя в своего рода «петлю» самосовершенствования. 

Это непросто. 

И, вероятно, будет достаточно только полной автоматизации. 

Пройдите 90% или даже 99% пути, а оставшаяся часть, зависящая от человека, замедлит ход событий.


Мало кто из исследователей думает, что угрожающий сверхразум близок. 


Действительно, сами исследователи ИИ могут даже преувеличивать долгосрочные риски. 

Филип Тетлок из Университета Пенсильвании столкнул экспертов по искусственному интеллекту с «суперпрогнозистами», людьми, которые имеют большой опыт в прогнозировании и обучены избегать когнитивных предубеждений. 

(Подробнее про подход суперпрогнозистов  в обзоре книг: “Думай медленно-предсказывай точно. Искусство и наука предвидеть опасность. Филип Тетлок https://youtu.be/UEC_djDh_fQ  Текстовый конспектhttps://smart-lab.ru/blog/673858.php )

В исследовании, они обнаружили, что средний эксперт по искусственному интеллекту дал 3,9% шансов на экзистенциальную катастрофу (когда выживет менее 5000 человек) из-за искусственного интеллекта к 2100 году. 

Средний суперпрогнозист, напротив, дал шанс 0,38%. 


Почему такая разница? 

Во-первых, эксперты по искусственному интеллекту могут выбирать свою область именно потому, что считают ее важной, своего рода предвзятость выбора. 

Во-вторых, они не так чувствительны к различиям между малыми вероятностями, как прогнозисты.


Независимо от того, насколько вероятны экстремальные сценарии, тем временем есть о чем беспокоиться. 

Общее отношение, похоже, таково, что лучше перестраховаться, чем потом сожалеть. 


Мы «должны выделять больше — гораздо больше — ресурсов» на исследования в области согласования и управления ИИ. 

И миру, скорее всего, необходимы бюрократические структуры для управления стандартами искусственного интеллекта и проведения исследований в области безопасности. 


Доля исследователей в опросах ai Impacts, которые поддерживают «гораздо большее» финансирование исследований в области безопасности, выросла с 14% в 2016 году до 33%. 


В 1960 году Винер писал, что «чтобы эффективно предотвращать катастрофические последствия, наше понимание наших искусственных машин должно в целом развиваться параллельно [шаг за шагом] с работой машины. 

Сама медлительность наших человеческих действий может свести на нет наш эффективный контроль над нашими машинами. К тому времени, когда мы сможем отреагировать на информацию, передаваемую нашими органами чувств, и остановить машину, которую мы ведем, она, возможно, уже врежется в стену». 


Сегодня, когда машины становятся более сложными, чем он мог мечтать, эта точка зрения все больше разделяется.

Оригинал

P.S. Подпишитесь на проект «КОГоть» — “КраткоОГлавном” в Телеграм, Дзен, VK и Youtube

 

теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн