Что общего у изучения иностранного языка и тестирования нейросетей

В новостях нам чуть ли не каждую неделю рассказывают о том, что очередная новая AI-моделька начисто победила людей в каком-нибудь супер-невозможном бенчмарке – а значит, нас ждет полная доминация жестянок уже не далее, чем завтра. И меня тут внезапно настигло чувство дежавю с тем, как я два года назад изучал греческий (потерпите, сейчас всё станет понятно).

В 2024 году я чуть больше чем за полгода занятий с репетитором подготовился и сдал экзамен по греческому языку сразу двух уровней A2 и B1 на «отлично» (или, как говорят греки, «αρίστα»).

Но есть нюанс! Говорить/писать на греческом более-менее свободно я так и не могу. Потому что задачи «сдать экзамен по языку» и «выучить язык» хоть и являются частично пересекающимися, но они далеко не идентичны. И в условиях ограниченных ресурсов, решить первую задачу сверх-оптимизацией получаемых знаний и навыков конкретно под узкую цель «получить все нужные галочки на экзамене» – это гораздо легче, чем прямо «по-честному» осваивать весь широкий набор языковых навыков.

Похожая проблема существует и в мире бенчмарков для оценки искусственного интеллекта. Базовая логика у них понятна: «давайте возьмем какой-нибудь набор задач, которые люди более-менее умеют решать своим мясным умишком с успешностью в среднем эдак 80% – и, если AI их в этом обгонит, то можно заключить, что он уже умнее человека!»

Загвоздка здесь в том, что как только такого рода бенчмарк публикуют, и он привлекает к себе общественное внимание – достичь цели «набрать самый высокий результат и победить на этом фестивале писькомерства между альтмасками и цукербринами» оказывается гораздо проще не через длинный путь «делаем сверх-умную модель, которая вообще всё делает оче-оче круто, в том числе и этот набор задач», а через банальное задрачивание модели на конкретный тип задач в этом тесте.

К чему это я? Тут нейросети на днях успешно забороли очередной «непобедимый бенчмарк по креативности, который уж точно может решить только по-настоящему генерализованный интеллект не хуже человеческого» (читайте подробное описание сути дела у Игоря Котенкова). Значит ли это, что, наконец, «AGI achieved»? Ну, э-э, скорее нет, чем да (по причинам, описанным выше).

Отдельный здесь кек – это то, что для решениях самых сложных задач в такого рода бенчмарках нейросети уже не просто кидают на амбразуру с наказом «ну ты это, постарайся там». Нет, им сейчас делают целый обвес специальных правил, как правильно методологически раскалывать такие орешки. Типа: ты сначала нагенерируй 100 разных ответов на этот вопрос, потом каждый ответ попробуй заново подставить к задачке и прикинь «а не херню ли я сделала?», а потом еще пусть итоговое решение отберет из прошедших предыдущие фильтры вообще другая строгая нейросеть-критик.

И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

Нейросети искусственный интеллект бенчмарк иностранный язык ИИ

RationalAnswer

Павел Комаровский

Лимасол

785

23 927

с 11 января 2021

20 Комментариев

tradeformation
26 декабря 2025, 12:45
Да-да. Обвесить модель правильными промптами почему-то считается достижением нейросетки, а не того кожаного индивида, кто эти промпты генерил )))
+2
Sergey Lebedev
26 декабря 2025, 14:16
Калимера
Гамота
Эла — ре

И вот это ихнее блюдо запенка из Манки — фу

А так греки прелестные люди)
Слова выше — произвольные и не обращены к автору поста.
0
Игорь ПМ
26 декабря 2025, 16:53
+4
Alexs
26 декабря 2025, 18:50
И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

Как бы да, но... Известно что с разбегу решать олимпиадные задачи могут не только лишь всё. Никто практически не может )

А вот если поднатаскать, порешать разных задач под руководством наставника, то это уже реально.

Получается особой разницы нет между кожаными мешками и ИИ в этом.

Отличие большое что у ИИ нет (и пока не может быть) собственного опыта взаимодействия с миром. А вот когда появится да еще и мощность сеток раз в 100 добавить, что тогда будет — это вопрос.
+1
Russo turisto obliko morale
26 декабря 2025, 19:03
А тем временем google вывозит свои сервера из России 🤣
0
Petrov
26 декабря 2025, 19:05
На крипте все ИИ «благополучно» слились.
На акциях Грок-4-20 пока тужится, но остальные, в том числе и его старший брат, в глубокой жо.

+2
Rostislav Kudryashov
26 декабря 2025, 22:17
Когда Джеймс Уатт усовершенствовал паровую машину, он не придумывал для неё тесты и бенчмарки, а сразу запряг в общественно-полезное дело.
Точно так же ЭВМ разрабатывали сразу для решения конкретных задач.

А вот ИИ пока что, сверх генерации бессодержательной болтовни в чатах, ограничивается решением уже давно решённых математиками и физиками задач. В РФ под применение ИИ в управлении плавкой стали или транспортными потоками очковтиратели выколачивают приличные денежки из казны.
Недавно на cnews.ru привели данные, что применение ИИ на 20% увеличивает сроки и трудоёмкость разработки больших программных комплексов.
+1
- Dertysew
  26 декабря 2025, 23:00
  Rostislav Kudryashov, ИИ уже сократил компьютерных художников, телефонных операторов и далее будет сокращать профессии
  +1
  - Александр
    29 декабря 2025, 06:33
    Dertysew, ну и как часто вы общаетесь с ИИ телефонным оператором? Много ли он решил проблем пользователей. По мне это не метод помочь клиенту, а метод послать его. С входящими звонками то же самое, при первом предчувствие, что со мной говорит ИИ, разговор прекращается. Заметьте, мошенники, для которых нужен именно результат общения с вами — используют обычных людей, а корпорации которые не хотят тратятся на своих клиентов — используют скриптованные ИИ.
    0
    - Dertysew
      29 декабря 2025, 23:20
      Александр, по телефону с роботом не общался, но в чате брокера было несколько случаев когда мне хватило ответов от нейросети. Каждая сэкономленная минута от нейросети это уменьшение работы техподдержки.
      
      По поводу мошенников, они сейчас проводят прозвоны и сбросы трубок, тоже это делают не вручную. Ну и информация у них очень индивидуальная. Они до звонка проводят свой автоматический анализ поведения людей и только потом звонят. Звонки случайным людям в прошлом, у профессионалов вся информация о тебе. В будущем приложение Макс которые соберут о тебе аналитику вообще сделают всю работу до звонка.
      0
Rostislav Kudryashov
26 декабря 2025, 22:47
Зачем кому-то греческий язык?
Читал когда-то «Мой большой греческий ремонт»: никак не вдохновляет на греческий.
0
- Павел Комаровский
  27 декабря 2025, 00:37
  Rostislav Kudryashov, за паспортом
  0
StarSol
26 декабря 2025, 22:48
Главная и основная проблема ИИ в том, что это черный ящик. Поэтому, при ответственном отношении, нормальному заказчику результата не понятно, как была решена задача и чтобы проверить правильно ли решена поставленная задача или нет, нужно затратить гораздо больше времени и сил, чем сделать это самому ;)
0
- Rostislav Kudryashov
  26 декабря 2025, 22:55
  StarSol, 22:48 Если бы ИИ обучали на той Биг-Дате, которая была в распоряжении Тихо Браге, Кеплера и Галилея, человечество, ведомое ИИ, так и осталось бы в плену догматов Аристотелевой физики.
  +1
  - StarSol
    26 декабря 2025, 23:02
    Rostislav Kudryashov, Именно. Кто из людей в состоянии оценить весь объём того, что-то "скормлено" ИИ? Никто! А уж какие "выводы" сделал из этого ИИ, вообще никому не известно.
    0
- Dertysew
  26 декабря 2025, 23:03
  StarSol, что значит непонятно как была решена задача? Если ты попросишь ИИ расписать как считать 2+2*2 то ии напишет тебе алгоритм решения задачи
  0
  - Rostislav Kudryashov
    26 декабря 2025, 23:26
    Dertysew, Сегодня в 23:03
    ии напишет тебе алгоритм решения задачи
    Это не так! Читай
    Начало ссылки sourestdeeds.github.io/pdf/Deep Learning with Python.pdf Конец ссылки
    «Deep Learning with Python 2Ed» Fransois Chollet
    или хотя бы
    m.vk.com/wall-138477641_3519?lang=en
    psv4.userapi.com/c816431/u11290018/docs/409bbb6f61f7/Sozdaem_neyronnuyu_set.pdf?extra=poI1mTHJmemnX_sjzbrjKF6Mye_ImwtdVuRr7N8HLh6Vo6THNyds1CNlKwluERq_UykUcqRP8AWNGVtIJ-Y5GuwKoqybDMx0pTTCxSKmaIn8G3Wim6BmMesbkhI679o5XnMu7zvpQA
    www.are.na/block/1793365
    «Создаём нейронную сеть» Тарик Рашид
    Решение ИИ — это обученная на подготовленных данных нейросеть, состоящая из блоков линейных и нелинейных алгербаических преобразований, матриц с миллиардами оптимизированных в ходе обучения числовых коэффициентов.
    
    PS Чтобы научить нейросеть в системе Керас на Питоне «предсказывать» значения функции sin(x) мне хватило нескольких таких блоков с несколькими сотнями числовых коэффициентов.
    Хотя, если не использовать таблицы Брадиса, в компьютере функция sin(x) реализуется несколькими десятками машинных команд.
    0
    - Dertysew
      26 декабря 2025, 23:25
      Rostislav Kudryashov, ИИ это нейросеть. Нейросеть это числовые коэффициенты, ок.
      
      Эти числовые коэффициенты могут решить задачу 2+2*2 и могут написать решение задачи. Какая разница какой именно числовой коэффициент решил задачу если задача была решена и был предоставлен правильный алгоритм решения задачи?
      Если компьютер делает сложение 2+2 ты же не проверяешь решение компьютера в двоичном коде на уровне машинного кода?
      0
      - Александр
        29 декабря 2025, 07:01
        Dertysew, по мне это два разных подхода.
        Компьютер действует по заданному алгоритму. Правильный алгоритм дает правильный результат в 100% случаев. 100% повторяемость дает возможность усложнять простые задачи (2+2) до уровней доступных производственными мощностями.
        ИИ развитие которых мы свидетели — ото лингвистическая модель. Если при недопустимых вводных компьютер выдаст ошибку, то ИИ выдаст ответ не особо парясь его истинности. Никто и не скрывает, что точность результата менее 100%. При этом когда поступает задача на предоставления алгоритма, ИИ не анализирует свой предыдущий ответ, а генерит новый текст на основе предыдущего ответа с точностью менее 100%.
        Отсюда и возможные опасности. Если ты доверил ИИ сделать реферат про верблюдов, то цена ошибки минимальна. А если доверил управление сложной системой, то накопленная ошибка легко сможет стать катастрофичной.
        0
        Dertysew
        29 декабря 2025, 23:31
        Александр, да, при работе с безопасностью нужно делать анализ работы нейросетей, человеческий и машинный.
        
        Однако не нужно думать что человеки не совершают катастрофических ошибок. Анализ катастроф последних лет скажет тебе простую мысль о том, что человеческий фактор до сих пор это главный фактор причины катастроф.
        
        Кстати, как работает человеческий мозг мы до сих пор не знаем до конца, но это не мешает им пользоваться. Почему же мозгом мы пользуемся, а нейросетями пользоваться нельзя? И там, и там могут быть ошибки и ещё неизвестно где их больше.
        +1

Читайте на SMART-LAB:

Делимся обновленными результатами и ключевыми показателями на 23 марта

Друзья, привет! ✅ Делимся обновленными результатами и ключевыми показателями: с начала года мы уже передали нашим клиентам 7567 ключей от квартир и коммерческих помещений, что на 20% больше,...

Самолет

11:14

🍞Акрон: неплохо, но есть другие варианты

Производитель удобрений отчитался по МСФО за 2025 год Акрон (AKRN) ➡️ Инфо и показатели 🔶 Результаты за год — выручка: ₽237,6 млрд (+20% год к году); — EBITDA: ₽91,7 млрд...

Market Power

14:07

Акции RENI в списке ТОП-10 лучших дивидендных акций, по мнению УК ««ДОХОДЪ»

По сообщениям СМИ, акции Группы Ренессанс страхование (RENI) вошли в подборку Управляющей компании ««ДОХОДЪ» ТОП-10 лучших дивидендных акций с доходностью от 12% до 17,5% на ближайшие 12 месяцев....

Ренессанс страхование

13:29

X5 МСФО 2025 г. - капзатрат меньше, дивиденд больше?

Компания X5 опубликовала финансовые результаты за 2025 год. Выручка прибавила +18,8% до 4,6 трлн руб., в 4-м квартале рост на 14,9% до 1,24 трлн руб. Валовая прибыль за год выросла на +17,9%...