Блог им. Zashibis

Задача из 5 класса, которая ломает ChatGPT и ему подобных

Я достаточно часто пишу и обсуждаю с коллегами про то, как использовать нейросети с пользой — для работы, бизнеса и жизни. И почти в каждом втором обсуждении кто-то пишет что-то вроде: «Да что вы от него хотите, это же просто болтающий калькулятор. Просто много рассуждает, врет и думать не умеет».

Конечно, есть тут частичка правды. Особенно страдает качество, если применять «ИИ» к задачам «на логику». 
Вот, например, посмотрим как «ИИ» справляются с задачкой из 5 класса мат. школы.  Я ее использую её как мини-тест, когда выходит новая модель, чтобы проверить рекламные обещания:


см. Задачу 14 (Кстати, можете попробовать ее решить. Я лично пока нашел 2 способа. )
Задача из 5 класса, которая ломает ChatGPT и ему подобных

Я загонял ее в разные модели — от GPT до Grok и Gemini. Они начинают бодро рассуждать, но потом, почти всегда, произносят магическую фразу:

«Взвесим кучу A и кучу B. Если они равны, значит фальшивые монеты в куче C нет.»

И это, конечно, ошибка.
Потому что фальшивки могут быть и в куче C — обе сразу.
То есть модель сделала логично построенный с точки зрения языка и контекста, но абсолютно ложный вывод.

(полное решение от ChatGPT см. ниже)

Чем мне эта информация помогает в применении LLM:

  1. Постоянно при решении своих задач напоминаю себе, как работает Большая Языковая Модель. Это не мыслитель, а предсказатель следующего слова c учетом контекста.У него нет пока понимания задачи, только языковая статистика.
    Минус при использовании: Все чаще замечаю ситуации, когда мне лень проверять ответ (это может стать проблемой при частом использовании).
  2. Заранее думаю, какой тип задачи подать в ллм для эффективного использования и как.
    Например, стоит ли давать условия по шагам? Или лучше использовать формат цепочки рассуждений (Chain-of-thought)?
    Поштурмить — ок. Но если задача требует чёткой логики и шагов — стараюсь действовать аккуратно.


Решение от ChatGPT:

«Давай внимательно разберем задачу 14:

Условие:

  • Есть три кучки монет:

    • Первая кучка — 18 монет

    • Вторая кучка — 23 монеты

    • Третья кучка — 27 монет.

  • Среди всех этих монет есть две фальшивые монеты.

  • Фальшивые монеты легче настоящих, но одинаковы по массе между собой.

  • Настоящие монеты одинаковы по массе.

  • Нужно за два взвешивания на чашечных весах (без гирь!) определить, в какой кучке находятся только настоящие монеты.

Поскольку известно, что только в одной из куч нет фальшивых монет, а две другие содержат две фальшивые монеты (возможно обе в одной, возможно по одной в каждой), то нам нужно определить „настоящую“ кучку.

Обозначим кучки:

  • A — 18 монет

  • B — 23 монеты

  • C — 27 монет.


Стратегия:

1️⃣ Первое взвешивание:

Возьмем любые две кучки и сравним их массу. Например:

Сравним B (23 монеты) и C (27 монет):

  • Если весы в равновесии — значит в обеих кучках нет фальшивых монет → тогда кучка A (18 монет) обязательно содержит обе фальшивые монеты, а настоящая кучка любая из B или C.

  • Если одна из чаш окажется легче — значит в этой кучке есть хотя бы одна фальшивая монета.

2️⃣ Второе взвешивание:

Теперь выбираем одну из кучек из первого взвешивания и сравниваем её с A.

Например, если оказалось, что B легче C, то делаем:

Сравниваем B и A.

  • Если теперь B и A весят одинаково, значит все фальшивки были в C → A — настоящая.

  • Если снова B легче, значит в B находятся фальшивые монеты → настоящая кучка — C.

  • Если B тяжелее A — значит фальшивки были в A → настоящая кучка — B.


Таким образом, за два взвешивания мы можем однозначно определить, где настоящие монеты.»

 


Несмотря на этот откровенный «косяк», есть множество задач, гре нейросеть Мегаэффективна. Такие кейсы я для себя коллекционирую и выкладываю сюда: 👉  Каталог полезных кейсов по эффективному применению ИИ на работе и жизни
516
21 комментарий
Удивительное решение.
Взвешивая кучки из разного количества монет, какой полезный вывод можно получить?
avatar
VolontaireFromSPb, тоже для меня загадка. Прошлые модели (не 4o b o3) хотя бы по 18 предлагал сравнивать. 27, явно перевесит 23... 
Навскидку надо взвешивать по 18 монет, но двух взвешиваний явно недостаточно.
Вспомнил молодость и математический кружок Дворца пионеров.
avatar
VolontaireFromSPb, если я правильно посчитал, то достаточно (если по 18 взвешивать)
Сергей Попов, напиши решение, лень думать.
avatar

VolontaireFromSPb, один из вариантов решения:

1. Делаю три кучи 18 (а), 18+5 (б), 18+9(ц)
2. ⁠взвешиваю а с б
— если а>б — куча 1
3. если а = б, взвешиваю а и ц
— ⁠а>ц — куча 1
— ⁠а=ц — куча 1
— ⁠а < ц — куча 3
4. Если а < б, то взвешиваю а и б, но 5 монет заменяю в б на те, что отложил (б это 18+5). Получаем б1
5. ⁠а = б1 — куча 3 (ц)
6. ⁠а < б1 - куча 2 (б)

Сергей Попов, я невнимательно условия прочитал, и хотел точно установить кучу (кучи), где монеты фальшивые.
avatar
VolontaireFromSPb, бывает 
делим 2 группу на 16+7, получаем 1 взвешивание:
на одной чаше весов 18 монет 1 группа и 16 монет 2 группа, на второй 27 третья группа и 7 из второй, по 34 монеты на каждой чаше весов.

если не равны то искомая «настоящая» группа либо 1 либо 3

если равны то делим четную группу пополам и взвешиваем:

если равны, то группа 1  «настоящая», если нет, то настоящая 2.

но это не для 5 класса задача, думаю для 9-11-го подойдет. Еще чат жпт очень сильно лажает с пространственной геометрией, вообще понимания смысла задачи ноль.
avatar
vovA4546, в матшколе дали уже в 5-ом знакомой.

Это Gemeni 2.5 Pro, ChatGPT тоже бы решил, но тут уже ответов понаписали и это все сразу же находится ботом.
--------------
Конечно, вот решение этой задачи.

Обозначим кучки:

  • Кучка 1: 18 монет
  • Кучка 2: 23 монеты
  • Кучка 3: 27 монет

Взвешивание 1

  1. Положите на левую чашу весов все 18 монет из Кучки 1.
  2. Положите на правую чашу весов 18 монет, взятых из Кучки 3. Оставшиеся 9 монет из Кучки 3 пока отложите в сторону.

Возможны три результата:

  • Случай А: Левая чаша легче (Кучка 1 легче 18 монет из Кучки 3). Это означает, что в Кучке 1 точно есть хотя бы одна фальшивая монета. Кучка 1 не является искомой. Настоящие монеты могут быть только в Кучке 2 или в Кучке 3. Переходим ко второму взвешиванию, чтобы определить, какая из них.

  • Случай Б: Правая чаша легче (18 монет из Кучки 3 легче Кучки 1). Это означает, что в Кучке 3 точно есть хотя бы одна фальшивая монета. Кучка 3 не является искомой. Настоящие монеты могут быть только в Кучке 1 или в Кучке 2. Переходим ко второму взвешиванию.

  • Случай В: Весы в равновесии. Это самый интересный случай. Он означает, что либо в обеих взвешиваемых группах нет фальшивых монет, либо в них по одной фальшивой монете. Это исключает Кучку 3 (в ней не может быть двух фальшивых монет, иначе равновесия бы не было). Значит, искомая кучка — это либо Кучка 1, либо Кучка 2. Переходим ко второму взвешиванию.

Взвешивание 2

В зависимости от результата первого взвешивания:

  • После случая А (Кучка 1 легче):

    1. Уберите монеты с весов.
    2. Положите на левую чашу все 23 монеты из Кучки 2.
    3. Положите на правую чашу 23 монеты, взятые из Кучки 3.
    • Если левая чаша (Кучка 2) легче, значит, в ней есть фальшивые монеты. Искомая кучка — Кучка 3.
    • Если правая чаша (из Кучки 3) легче, значит, в ней есть фальшивые монеты. Искомая кучка — Кучка 2.
    • Если весы в равновесии, это значит, что фальшивые монеты находятся в отложенных 4 монетах из Кучки 3. Искомая кучка — Кучка 2.
  • После случая Б (Кучка 3 легче):

    1. Уберите монеты с весов.
    2. Положите на левую чашу все 18 монет из Кучки 1.
    3. Положите на правую чашу 18 монет, взятых из Кучки 2.
    • Если левая чаша (Кучка 1) легче, в ней есть фальшивка. Искомая кучка — Кучка 2.
    • Если правая чаша (из Кучки 2) легче, в ней есть фальшивка. Искомая кучка — Кучка 1.
    • Если весы в равновесии, это значит, что фальшивые монеты находятся в отложенных 5 монетах из Кучки 2. Искомая кучка — Кучка 1.
  • После случая В (весы были в равновесии): Выполняем те же действия, что и после случая Б.

    1. Уберите монеты с весов.
    2. Положите на левую чашу все 18 монет из Кучки 1.
    3. Положите на правую чашу 18 монет, взятых из Кучки 2.
    • Если левая чаша (Кучка 1) легче, в ней фальшивка. Искомая кучка — Кучка 2.
    • Если правая чаша (из Кучки 2) легче, в ней фальшивка. Искомая кучка — Кучка 1.
    • Если весы в равновесии, значит, обе фальшивые монеты находятся в Кучке 2 (в тех 5 монетах, что не участвовали во взвешивании). Искомая кучка — Кучка 1.

Таким образом, за два взвешивания мы гарантированно находим кучку, в которой все монеты настоящие.

avatar

Beach Bunny, Т.е. если обе фальшивые монеты в куче 3, то дальше LLM предлагает взвесить опять 18 монет из кучи 1 и кучи 2 (После случая В (весы были в равновесии).

И тогда 

  • Если весы в равновесии (а они будут в равновесии), значит, обе фальшивые монеты находятся в Кучке 2 (в тех 5 монетах, что не участвовали во взвешивании). Искомая кучка — Кучка 1.
Я правильно понял? Интересно, почему не 2, но это риторический вопрос.

Гпт платный не решил. Джемини платный не пробовал. Чуб, придется менять скоро задачу для теста
Сергей Попов, 
Что если две фальшивые монеты лежат в кучке 3
-------------

Отличный вопрос! Давайте разберем именно этот сценарий, используя предложенный метод.

Исходные данные:

  • Кучка 1 (18 монет): Все настоящие.
  • Кучка 2 (23 монеты): Все настоящие.
  • Кучка 3 (27 монет): Содержит 2 фальшивые монеты.

Взвешивание 1

Мы кладем на весы:

  • Левая чаша: 18 монет из Кучки 1 (все настоящие).
  • Правая чаша: 18 монет из Кучки 3.

Здесь возможны два варианта развития событий, в зависимости от того, попали ли фальшивые монеты в нашу выборку из 18 монет:

Вариант А: На правую чашу попала хотя бы одна фальшивая монета.

  • Левая чаша (18 настоящих) будет тяжелее.
  • Правая чаша (с фальшивкой) будет легче.
  • Результат: Мы сразу определяем, что в Кучке 3 есть фальшивка. Значит, она не может быть искомой. Кучка с настоящими монетами — это либо Кучка 1, либо Кучка 2.

Вариант Б: Обе фальшивые монеты остались в тех 9 монетах Кучки 3, что мы отложили.

  • На левой чаше 18 настоящих монет.
  • На правой чаше тоже 18 настоящих монет.
  • Результат: Весы в равновесии. Это говорит нам о том, что на весах нет фальшивых монет. Следовательно, Кучка 1 — настоящая. Фальшивки находятся где-то среди монет, не участвовавших во взвешивании (Кучка 2 и остаток Кучки 3).

Взвешивание 2

Теперь посмотрим, что покажет второе взвешивание для каждого из этих вариантов.

Если сработал Вариант А (правая чаша была легче):

  • Мы знаем, что ответ — Кучка 1 или Кучка 2.
  • Мы взвешиваем: 18 монет из Кучки 1 против 18 монет из Кучки 2.
  • Поскольку в нашем сценарии обе эти кучки настоящие, весы покажут равновесие.
  • Вывод: Раз Кучка 1 и Кучка 2 равны по весу, а мы знаем, что фальшивки где-то есть, значит они не в этих кучках. Но нам нужно выбрать одну. Равновесие доказывает, что Кучка 1 — настоящая (так как она целиком участвовала во взвешивании и показала себя равной другой кучке). Таким образом, мы находим, что Кучка 1 — искомая.

Если сработал Вариант Б (весы были в равновесии):

  • Мы уже после первого взвешивания поняли, что Кучка 1 — настоящая. Второе взвешивание здесь нужно лишь для подтверждения и исключения Кучки 2.
  • Мы взвешиваем: 18 монет из Кучки 1 против 18 монет из Кучки 2.
  • Опять же, так как обе кучки настоящие, весы покажут равновесие.
  • Вывод: Равновесие подтверждает, что Кучка 1 — настоящая.

Итог: Если обе фальшивые монеты лежат в Кучке 3, предложенный алгоритм в любом случае за два взвешивания безошибочно определит кучку, в которой все монеты настоящие (в данном конкретном сценарии это будет либо Кучка 1, либо Кучка 2, и весы это покажут).

avatar
Beach Bunny, 2,5 pro — молодец. Как я и говорил, задачу придется менять. Ответ подходит по параметрам.
Beach Bunny, кстати, как подали условие: дали ссылку на страницу или картинку? Если ссылку, то она и комменты могла прочесть.
Сергей Попов, вот так:
Монеты разложены по трем кучкам. В первой кучке 18 монет, во второй 23, в третьей 27. Известно что какие то две монеты из них фальшивые(могут находиться как в одной так и в разных кучках). Настоящие монеты весят одинаково, фальшивые тоже одинаково, но фальшивая легче настоящей. На вид все монеты выглядят одинаково. За два взвешивания на чашечных весах без гирь найдите кучку, в которой все монеты настоящие.
avatar
Beach Bunny, посмотрел ответ еще раз.
Ответ правильный, сам алгоритм тоже, но логика объяснения результатов не полностью верна. Значит на модель полагаться нельзя, к сожалению нельзя
«Если весы в равновесии, значит, обе фальшивые монеты находятся в Кучке 2 (в тех 5 монетах, что не участвовали во взвешивании)»

Это не так, фальшивые монеты могут быть и в отложенных из кучи 2 и из кучи 3 или и в 3 и в 2
Сергей Попов, там ВСЁ верно, вы уже сами запутались.
Надо найти Кучу где Настоящиие, она и найдена, то что в вашем случае получилось 2 кучи с настоящими, это не важно, в условии: «Найди кучу в которой все настоящие»  — Что значит -> найди ОДНУ кучу!  ЛЮБУЮ ОДНУ!
avatar
Beach Bunny, Я о другом (при проверке моделей я смотрю не только на ответ, но и на весь ход рассуждений — а он не верен), но это уже не важно. Спасибо вам за ответ от Гугла, надо тоже подключить. К сожалению, и он в логику пока не умеет, но хотя бы идет верно, в отличие от ChatGPT
Сергей Попов, ответ верен!
Вопрос не подразумевает рассказ о всех возможных вариантах!
Если не нравится ответ, то формулируйте другой вопрос, где укажите все что вам нужно.
avatar

Читайте на SMART-LAB:
Расширяя технические возможности: нестандартный подход к торговле с БКС Trade API
Торговый терминал — это готовое решение со своим набором функций и возможностей. Но что, если ваша стратегия требует нестандартного подхода или...
Фото
$40 млрд «QE-лайт»: почему новая программа выкупа Феда давит на доллар
EUR/USD подбирается к 1.1750, максимальному уровня за два месяца. Рынок увидел в решении Федрезерва куда более асимметричный риск в сторону...
Фото
🚀 Акциям везде у нас дорога, фондам биржевым — везде у нас почет!
Уже сегодня на утренней и вечерней торговых сессиях, а с 13 декабря по выходным можно заключать сделки с паями БПИФ «Ежедневный процент» (CASH)...

теги блога Сергей Попов

....все тэги



UPDONW
Новый дизайн