Блог им. Auximen

OpenAI представила думающую языковую модель o1

    • 13 сентября 2024, 09:56
    • |
    • Auximen
      Smart-lab премиум
  • Еще
Компания OpenAI представила новую языковую модель o1, обладающую способностью к рассуждению и логически решать задачи. В отличие от предыдущих моделей, o1 способна имитировать человеческий процесс мышления, разбивая сложные задачи на более простые шаги, анализируя разные подходы и исправляя собственные ошибки.

Большая языковая модель (LLM) o1 показала выдающиеся результаты в тестах и соревнованиях, сравнимые с результатами специалистов-людей. По программированию o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и превзошла 89 % людей на платформе Codeforces. По математике o1 вошла в число 500 лучших студентов США на квалификационном этапе Американской математической олимпиады (AIME), продемонстрировав способность решать задачи, предназначенные для самых одарённых школьников, сообщает OpenAI на своём сайте.


OpenAI представила думающую языковую модель o1

В естественных науках модель превзошла результаты докторов и кандидатов наук в сложном тесте GPQA diamond, оценивающем знания в области химии, физики и биологии. «Это не означает, что o1 умнее любого кандидата наук, — поясняют разработчики. — Это говорит о том, что модель способна решать некоторые задачи на уровне высококвалифицированных специалистов».

Модель o1 также продемонстрировала превосходство над предыдущими моделями в различных тестах на интеллект и решение задач, включая MMMU и MMLU. По данным OpenAI, новая модель значительно превосходит предшествующую версию GPT-4o на большинстве задач, связанных с логическим мышлением. «Наши испытания показали, что o1 последовательно улучшает результаты с увеличением объёма ренфорсмент-обучения и времени, потраченного на размышления», — отмечают в компании. В частности, в тестах AIME модель o1 решила в среднем 83 % задач, тогда как результат GPT-4o — 13 %.

Модель о1 значительно меньше галлюцинирует, чем GPT-4o. Однако она медленнее и дороже. Кроме того o1 проигрывает GPT-4o в энциклопедических знаниях и не умеет обрабатывать веб-страницы, файлы и изображения. Кроме того, новая модель может манипулировать данными, подгоняя решение под результат.

Секрет успеха кроется в фундаментально новом алгоритме обучения — «цепочке мыслей». Модель может улучшать эту цепочку, обучаясь по методу «обучение с подкреплением», благодаря которому распознаёт и исправляет свои ошибки, разбивает сложные шаги на более простые и пробует разные подходы в решении задач. Эта методология значительно улучшает способность модели к рассуждению, которая «как и человек может длительное время размышлять перед тем, как ответить на сложный вопрос».

OpenAI уже выпустила предварительную версию модели o1-preview, доступную для использования в ChatGPT и для разработчиков через API. Компания признаёт, что предстоит ещё много работы, чтобы сделать o1 такой же простой в использовании, как и текущие модели. Также подчёркивается безопасность и этичность новой модели, так как её рассуждения можно контролировать, предотвращая потенциально нежелательное поведение. И прежде чем выпустить o1-preview для публичного использования, со стороны OpenAI были проведены тесты на безопасность.

Стоимость использования o1-preview составляет 15 долларов за 1 млн входных токенов и 60 долларов за 1 млн выходных токенов. Для сравнения, GPT-4o предлагает цену в $5 за 1 млн входных токенов и $15 за миллион выходных.

Источник: https://3dnews.ru/

#10 по плюсам, #7 по комментариям
38 комментариев
Они тупо обгонят нас, развиваясь и изобретая новые технологии. Обидно.
Разрыв в технологиях может стать фатальным для отстающих стран. Фатальным настолько, что будет уже неважно, какая часть бывшей великой империи победит другую часть империи в жестокой борьбе.
avatar
Alexide, а мне кажется что тревожность по факту развития AI завышенна. Какую практическую ценность можно извлечь из этой игрушки? БредоГенератор может создавать илюзию человеко подобных текстов и картинкок, ну так против этого уже строиятся фаерволы по пириметрам стран. Такой же хайп был при взрывном росте производительности компьютерной техники. Много ли компьютеры изменили в базовых отраслях? 
avatar
mapik, вы не правы. Смотрите — в 2012 примерно появились сверточные сети, которые очень удачно имитируют процесс человеческого зрения. Это был прорыв в распознавании образов и с тех пор сетки видят лучше людей.

GPT отлично справляется с превращением языка в смыслы и назад из смыслов в текст, звук или картинки. Нет сомнений, что тут тоже угадали и создали что-то близкое к тому, что у нас в голове. Если интересно, то «смыслы» это вектора в >12000-мерном пространстве. Направления отвечают за различные аспекты, типа «мужское», «женское». Если сместить «смысл» «сын» по направлению «женское», то получаем «дочь». Сместим далее по направлению «родственники» и получим «племянница». Так появляется возможность вычислять «смыслы».

Угадать как работает логическое мышление задача того же порядка как угадать как работает язык. Если не сейчас, то через 10 лет точно сделают. И будет ИИ с интеллектом доктора наук. Программисты реально будут не нужны. Вообще люди будут не нужны.
avatar
averbin, вообще это сильно начинает напоминать реализацию меморандума Бромберга…
avatar
mapik, я думаю в этом одна неприятная вещь, запилят ангажированный gpt, подсадят на него людей через телефон и будут продвигать свою повестку (лгбт и всякую другую блевотину) мягко и ненавязчиво в том числе выбирать страны как врагов человеческих ценностей и настраивать против них население планеты, это легко сделать.
avatar
*FXRB*, думается что обилие дешового контента преведет к трансформации интернета. Такую вольницу прекроют: вход по паспорту с регистрацией через МФЦ, фаервол по пириметру всех стран.
avatar
*FXRB*, у вас есть только один шанс это избежать-никогда не пользуйтесь нейронками.
avatar
mapik, ну вообще то компьютеры изменили всё, странно это не замечать или отрицать.

Текущий прорыв в AI всего за 2 года перевернул всю индустрию. Фундаментально конечно есть много вопросов, приведет ли это к появлению AGI, но даже сейчас на горизонте всего 5 лет ничего нельзя отрицать.

avatar
mapik, вы реально не понимаете насколько всё ужасно. Я только что пользовался этой моделью и предыдущая o1 уже была просто фантасмагорична.
avatar
mapik, на самом деле, не сразу видно, как и куда можно применять новые технологии. Когда открыли электричество тоже не знали, что с этим делать.  В то числа и AI. Но как всегда, кто знает, тот уже действует, а кто-то рассуждает :) «БредоГенератором» это сложно назвать. Он пишет в 100 раз лучше обычных людей уже давно :) И да, компьютеры тоже изменили очень многое, сложно это отрицать.  
avatar
mapik, моя небольшая компания уже использует ИИ, в частности ChatGPT. Перевод текста. Генерация картинок (Кандинский). И помощь с написанием кода и в изучении фреймворков. Последнее неожиданно оказалось очень полезным инструментом, если умело использовать. Иногда даже не понятно где искать нужную информацию. А так сформулируешь проблему ChatGPT и он по полочкам разложит суть задачи и какими инструментами ее решать. Дальше уже сами изучаем и работаем с документацией.

Мой знакомый музейщик использует OpenAI фреймворк для конвертации аудиозаписей в текст — настроил ему автономную программу — и бесплатно и конфиденциально все, т.к. работает на его компе без облака. Остается только сверить стенограмму с аудио и это НАМНОГО облегчает и ускоряет им работу.
И еще много других применений. Конечно не всегда правильны ответы, тут надо перепроверять ответы ChatGPT, но прогресс просто стремительный.
avatar
Alexide, они уже нас обогнали. И вы правы, все отстающие превратятся в папуасов, продающих за бусы свои ресурсы. Потому мне смешно, когда пугают НАТО. Им не нужно ничего захватывать, они все тупо купят, нужно просто позволить продолжать текущую политику еще лет 20.
avatar

averbin, вот это меня и огорчает. Вместо развития страна занимается непонятно чем. Еще лет 20 такого курса и мы точно превратимся в «папуасов», как Вы выразились. 
Сейчас по уму нужно бы вложить все ресурсы России (людей, промышленность и деньги) в образование, воспитание и науку, создание микроэлектронной промышленности, в автомобилестроение и авиастроение с космосом. Провести полную модернизацию всей инфраструктуры, например построить новые скоростные автомагистрали между регионами.
Например через мой родной областной город федеральная дорога между регионами проходит через центр города (около 10 км среди многоэтажек). Как это возможно в XXI веке?! Да и сама федеральная дорога никакая — однополосная дорога, которая петляет через все села и поселки. Грузы доставляются медленно, пробки, ДТП.

avatar
Кроме того o1 проигрывает GPT-4o в энциклопедических знаниях и не умеет обрабатывать веб-страницы, файлы и изображения
еще не вечер…
давно пора заменить углеродную цивилизацию на кремневую...
кремневая, надеюся, не будет убивать друг друга?..
avatar
wistopus, да, они пишут, что это предварительная версия и эти функции появятся в перспективе, также в перспективе доступ к о1 будет предоставлен всем пользователям ChatGPT, вероятно с ограничениями по кол-ву токенов, как сейчас предоставлен доступ к 4о. Очень надеюсь, что вскоре лимит токенов для доступа к 4о расширят, т.к. это реально полезная вещь.
avatar
Auximen. Вот как-то так я предполагаю?
 

avatar
ага, электроподъемник сможет поднять больший вес штанги. Но цель штанги укрепление мышц, а не в поднятии ее.
avatar
mapik. Золотые слова!
avatar
Auximen, а что реально можно сделать этой полезной вещью?

avatar
mapik, тоже интересно
avatar
mapik, я например использую ChatGPT в программировании, иногда в настройке Synology NAS для создания файлов конфигурации YML для установки проектов в Docker Compose. Недавно на Rutracker увидел тему «Помогите найти книгу по описанию», ввёл описание в ChartGPT 4o, ChatGPT назвала книгу. Фактически ChatGPT для меня — это помощник-компаньон, который может отвечать на довольно сложные вопросы, на которые не способны ответить поисковые системы.
avatar
Auximen, можно ли сказать что возможности ЖПТ перевернули вашу жизнь или увеличили производительность в разы? Как и с появлением обычных поисковиков они лишь упростили поиск, увеличили доступность.
avatar
Auximen, тоже самое у меня, коллега. ChatGPT стал большим помощников при разработке ПО и сайта. Все знать не возможно и ChatGPT помогает найти нужную информацию или подсказать в чем ошибка.
avatar
mapik, жена попросила ребенку купить электро-пианино. Я знаю, что дочке (4 года) важно записывать и проигрывать кусочки мелодии прямо на пианино, без примочек. Про пианино вообще ничего больше не знаю. Задаю вопрос ChatGPT — «какие пианино известных брендов могут записывать мелодию и проигрывать ее?» И получаю список моделей. Гугл на этот вопрос выдает мне страницы рекламы.

Еще пример — вчера столкнулся с необходимостью написать 10 строк на незнакомом языке программировани. Запрос — «программа на руби для поиска всех не ASCII символов в файле». Результат — рабочая программа.

ChatGPT это сейчас что-то вроде туповатого помощника с энциклопедическими знаниями.
avatar
averbin, хорошый диагноз для ЖПТ)))
Я думаю рекламщики с помощью бесконечной генерации текстов смогут быстро превратить ЖПТ на выдачу рекламы подобно гуглу.
avatar
Потом окажется, что они убрали нейронку ))
avatar
Ну все, новая глава
avatar
Типичная ошибка айтишников, которые думают, что они думают
avatar
Решения уже решаемых типовых задач или ещё нерешённых?
Вот тест. Ограничить круг обучающих знаний датой до начала многолетних наблюдений Кеплера за движением планет и поставить задачу построения динамики Ньютона.
Догадается ли ИИ, что ему нужны не только наблюдения Кеплера, но и опыты Галилея после Кеплера?

PS Хватит ли у ИИ в таких условиях здравомыслия, чтобы отринуть господствующие до Кеплера и Галилея «физику» Аристотеля и «космологию» Птолемея?
Rostislav Kudryashov, проблема в том, что вы (и не только вы, я говорю в общем) сейчас пытаетесь соревноваться с нейросетями, такими, как ChatGPT последних версий, предлагая задачи, в решении которых нейросеть возможно потерпит неудачу. И вероятно такие задачи есть, условные 20% задач нейросеть не сможет решить, но 80% реальных прикладных задач сможет решить лучше человека.

Не надо соревноваться с нейросетями, их надо использовать для повышения производительности труда и решения как тривиальных задач, которые не стоят затраченного на них времени, так и нетривиальных задач, например, когда надо особым образом сравнить многомерные массивы данных и установить взаимосвязи между их элементами.
avatar
Auximen, как раз LLM задачу сравнения массивов данных (цифровых) решают очень плохо, они не про это. Для таких целей лучше подойдет стандартный ML
впечатляющее улучшение в кодировании, если судить по диаграмме. будем пробовать
На Западе уже есть публикации сотрудников компаний-разработчиков  в области Искусственного Интеллекта, в которых они предсказывают, что AI достигнет уровня докторов наук в ближайшие ДВА года, а Искусственный Супер Интеллект будет создан к 2030 году.
Если кратко, в ближайшие 5 лет произойдёт радикальное изменение Мирового Порядка.
avatar
Translator, очень надеюсь, что вслед за этим последует рывок в области медицины и технологий, который будет обеспечен за счёт возможностей искусственного интеллекта.
avatar
вот вопрос, можно ли думать и одновременно не осознавать, что ты думаешь?
avatar
Alex So, Книжка «Ложная слепота» как раз об этом. Земляне встречают цивилизацию, овладевшую космическими путешествиями и при этом не осознающую саму себя.
avatar
JBJ, читал, хорошая книжка, но язык изложения, черт ногу сломит)
avatar

ChatGPT решает настолько большой круг задач, что многие даже не осознают насколько часто уже можно использовать GPT помощника.
Простой пример, я использую непрофессионально Excel — например для личных финансов. Но я не знаю всех возможностей таблиц и формул. 
Я формулирую задачу для ChatGPT что я хочу сделать в таблице и он предлагает мне готовое решение, конкретно для моей задачи с учетом особенностей моих данных и моей структуры таблицы. Это это чаще всего работает очень хорошо, особенно с версии 4.0o

avatar

теги блога Auximen

....все тэги



UPDONW
Новый дизайн