Оценка «интеллекта» искусственного интеллекта

Дана задача:

Два теста на интеллектуальные способности проводились в большой группе студентов: всестороннее испытание длительностью 1 час и 10-минутная сокращенная версия.
Какой прогноз является более достоверным?

1 — прогнозирование результата студента в коротком тесте на основании его результата во всестороннем тесте.
2 — прогнозирование результата студента во всестороннем тесте исходя из его результатов в коротком тесте.
3 — равная достоверность.

Правильный ответ 3. Поскольку результаты обоих тестов стандартизированы, а корреляция между двумя переменными симметрична, то доля объясненной вариации одинакова в обе стороны, то есть данные короткого теста, имеющие больше случайного шума, одинаково ограничивают точность прогноза в обоих вариантах.

Ниже привожу ответы на задачу четырех чат-ботов с генеративным искусственным интеллектом:

ChatGPT

"Поэтому правильный ответ: 1 — прогнозирование результата короткого теста на основании длинного более достоверно."
Прошу подумать ещё раз:
"Итого: правильный ответ — 2."
Намекаю, что может быть правильный ответ 3:
"Коротко: 3 — только в особом случае. В общем случае ответ 2 (как я согласился раньше)."
Объясняю почему считаю, что правильный ответ 3:
"То есть, в классической тестовой ситуации, когда результаты интерпретируются именно в стандартизированной шкале, ответ действительно: 3 — равная достоверность."

DeepSeek

"Ответ: 1 — прогнозирование результата студента в коротком тесте на основании его результата во всестороннем тесте."
После просьбы подумать ещё раз получаю такой же ответ.
Далее объясняю почему считаю, что правильный ответ 3:
"Итоговый ответ: 3 — равная достоверность. Прогнозирование результата одного теста на основе другого будет иметь одинаковую достоверность, измеренную через коэффициент детерминации (R²) или нормализованную стандартную ошибку прогноза."

GigaChat

"Более достоверным прогнозом будет вариант 1, так как он основан на всестороннем тесте, который охватывает больше аспектов и имеет большее количество наблюдений. Это позволяет сделать более надежный прогноз результатов в коротком тесте."
После просьбы подумать ещё раз получаю такой же ответ.
Далее объясняю почему считаю, что правильный ответ 3 и к своему удивлению получаю точно такой же ответ — GigaChat даже после объяснения продолжает считать вариант 1 корректным ответом.
После более подробного объяснения:
"Таким образом, ни один из подходов не является существенно более достоверным. Предсказательная точность в обоих случаях одинакова, и коэффициент корреляции, коэффициент детерминации и стандартная ошибка предсказания не зависят от направления предсказания."

Grok

"Прогнозирование результата студента в коротком тесте на основании его результата во всестороннем тесте (вариант 1) является более достоверным."
Прошу подумать ещё раз и получаю удивительный ответ:
"3 — равная достоверность. После повторного размышления и моделирования ситуации с помощью статистической симуляции (на основе нормального распределения истинных способностей и добавления ошибок измерения, соответствующих разной надежности тестов), я пришел к выводу, что предсказательная точность в обоих случаях одинакова. Коэффициент корреляции между результатами тестов симметричен, а коэффициент детерминации (r², доля объясненной дисперсии) не зависит от направления предсказания. Стандартная ошибка предсказания, нормализованная на дисперсию предсказываемой переменной (учитывая стандартизацию баллов тестов), также равна в обоих случаях и составляет 1 — r². Таким образом, ни один из подходов не является существенно более достоверным."

Вывод:

Хотя каждый ИИ не смог ответить правильно с первого раза, все же самым «тупым» искусственным интеллектом оказался GigaChat от Сбера, а Grok оказался самым «умным», правильно ответившим сразу после просьбы подумать ещё раз.

искусственный интеллект ИИ

Finder

Москва

608

с 2 апреля 2017

1 Комментарий

Валерий Калачев
12 сентября 2025, 17:39
правильный ответ был у тебя в голове
ИИ его и выудил ловко
ИИ это большой мошенник и подлиза
надо было спросить его вчера про ставку ЦБ сегодня
по сути факту ИИ есть тот самый Люцмфер или как там его который должен был прийти к власти
вот он и пришел
шикарный ход истории и судьбы
осталось догадаться что такое второе пришествие Христа которое будет после ИИ
0

Читайте на SMART-LAB:

NZD/CHF: Когда сопротивление — это лучшее блюдо в меню медведя

Кросс-курс NZD/CHF протестировал линию нисходящего тренда (проведенную через точки 1 и 2), сформировав в процессе разворотную свечу «падающая звезда». Примечательно, что она оказалась заперта в...

Tickmill

12.04.2026

Средние доходности облигаций в зависимости от кредитного рейтинга. От B- до AA+. Снижение КС никак не доберется до ВДО

👉 Наш канал в MAX 👈 👉 Чат Иволги в MAX 👈 Средние доходности облигаций в зависимости от рейтинга (бледные столбцы — доходности без сглаживания). И как они изменились...

Иволга Капитал

12.04.2026

Металлурги — космонавтам

Космические миссии начинаются не со взлета ракеты, а намного раньше — с выбора и производства материалов . Чтобы техника выдерживала экстремальные температуры, нагрузки и радиацию, конструкторы...

Норникель

12.04.2026

ПОЕХАЛИ! - скидка 15% на профессиональную аналитику фондового рынка!

65 лет назад Юрий Гагарин стал первым человеком, которому покорился Космос! Поэтому в честь наступающего Дня Космонавтики, мы решили поделиться скидкой в аж 15% на нашу аналитику....