Павел Комаровский
Павел Комаровский личный блог
26 декабря 2025, 11:52

Что общего у изучения иностранного языка и тестирования нейросетей

В новостях нам чуть ли не каждую неделю рассказывают о том, что очередная новая AI-моделька начисто победила людей в каком-нибудь супер-невозможном бенчмарке – а значит, нас ждет полная доминация жестянок уже не далее, чем завтра. И меня тут внезапно настигло чувство дежавю с тем, как я два года назад изучал греческий (потерпите, сейчас всё станет понятно).

Что общего у изучения иностранного языка и тестирования нейросетей

В 2024 году я чуть больше чем за полгода занятий с репетитором подготовился и сдал экзамен по греческому языку сразу двух уровней A2 и B1 на «отлично» (или, как говорят греки, «αρίστα»).

Но есть нюанс! Говорить/писать на греческом более-менее свободно я так и не могу. Потому что задачи «сдать экзамен по языку» и «выучить язык» хоть и являются частично пересекающимися, но они далеко не идентичны. И в условиях ограниченных ресурсов, решить первую задачу сверх-оптимизацией получаемых знаний и навыков конкретно под узкую цель «получить все нужные галочки на экзамене» – это гораздо легче, чем прямо «по-честному» осваивать весь широкий набор языковых навыков.

Похожая проблема существует и в мире бенчмарков для оценки искусственного интеллекта. Базовая логика у них понятна: «давайте возьмем какой-нибудь набор задач, которые люди более-менее умеют решать своим мясным умишком с успешностью в среднем эдак 80% – и, если AI их в этом обгонит, то можно заключить, что он уже умнее человека!»

Загвоздка здесь в том, что как только такого рода бенчмарк публикуют, и он привлекает к себе общественное внимание – достичь цели «набрать самый высокий результат и победить на этом фестивале писькомерства между альтмасками и цукербринами» оказывается гораздо проще не через длинный путь «делаем сверх-умную модель, которая вообще всё делает оче-оче круто, в том числе и этот набор задач», а через банальное задрачивание модели на конкретный тип задач в этом тесте.

К чему это я? Тут нейросети на днях успешно забороли очередной «непобедимый бенчмарк по креативности, который уж точно может решить только по-настоящему генерализованный интеллект не хуже человеческого» (читайте подробное описание сути дела у Игоря Котенкова). Значит ли это, что, наконец, «AGI achieved»? Ну, э-э, скорее нет, чем да (по причинам, описанным выше).

Что общего у изучения иностранного языка и тестирования нейросетей

Отдельный здесь кек – это то, что для решениях самых сложных задач в такого рода бенчмарках нейросети уже не просто кидают на амбразуру с наказом «ну ты это, постарайся там». Нет, им сейчас делают целый обвес специальных правил, как правильно методологически раскалывать такие орешки. Типа: ты сначала нагенерируй 100 разных ответов на этот вопрос, потом каждый ответ попробуй заново подставить к задачке и прикинь «а не херню ли я сделала?», а потом еще пусть итоговое решение отберет из прошедших предыдущие фильтры вообще другая строгая нейросеть-критик.

И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

20 Комментариев
  • tradeformation
    26 декабря 2025, 12:45
    Да-да. Обвесить модель правильными промптами почему-то считается достижением нейросетки, а не того кожаного индивида, кто эти промпты генерил )))
  • Sergey Lebedev
    26 декабря 2025, 14:16
    Калимера 
    Гамота 
    Эла  — ре   

    И вот это ихнее блюдо запенка из Манки — фу 

    А так греки прелестные люди)  
    Слова выше — произвольные и не обращены к автору поста.   
  • Игорь ПМ
    26 декабря 2025, 16:53
  • Alexs
    26 декабря 2025, 18:50
    И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

    Как бы да, но... Известно что с разбегу решать олимпиадные задачи могут не только лишь всё. Никто практически не может )

    А вот если поднатаскать, порешать разных задач под руководством наставника, то это уже реально.

    Получается особой разницы нет между кожаными мешками и ИИ в этом.

    Отличие большое что у ИИ нет (и пока не может быть) собственного опыта взаимодействия с миром. А вот когда появится да еще и мощность сеток раз в 100 добавить, что тогда будет — это вопрос.
  • Russo turisto obliko morale
    26 декабря 2025, 19:03
    А тем временем google вывозит свои сервера из России 🤣
  • Petrov
    26 декабря 2025, 19:05
    На крипте все ИИ «благополучно» слились.
    На акциях Грок-4-20 пока тужится, но остальные, в том числе и его старший брат, в глубокой жо.
  • Rostislav Kudryashov
    26 декабря 2025, 22:17
    Когда Джеймс Уатт усовершенствовал паровую машину, он не придумывал для неё тесты и бенчмарки, а сразу запряг в общественно-полезное дело.
    Точно так же ЭВМ разрабатывали сразу для решения конкретных задач.

    А вот ИИ пока что, сверх генерации бессодержательной болтовни в чатах, ограничивается решением уже давно решённых математиками и физиками задач. В РФ под применение ИИ в управлении плавкой стали или транспортными потоками очковтиратели выколачивают приличные денежки из казны.
    Недавно на cnews.ru привели данные, что применение ИИ на 20% увеличивает сроки и трудоёмкость разработки больших программных комплексов.
    • Dertysew
      26 декабря 2025, 23:00
      Rostislav Kudryashov, ИИ уже сократил компьютерных художников, телефонных операторов и далее будет сокращать профессии
      • Александр
        29 декабря 2025, 06:33
        Dertysew, ну и как часто вы общаетесь с ИИ телефонным оператором? Много ли он решил проблем пользователей. По мне это не метод помочь клиенту, а метод послать его. С входящими звонками то же самое, при первом предчувствие, что со мной говорит ИИ, разговор прекращается. Заметьте, мошенники, для которых нужен именно результат общения с вами — используют обычных людей, а корпорации которые не хотят тратятся на своих клиентов — используют скриптованные ИИ. 
        • Dertysew
          29 декабря 2025, 23:20
          Александр, по телефону с роботом не общался, но в чате брокера было несколько случаев когда мне хватило ответов от нейросети. Каждая сэкономленная минута от нейросети это уменьшение работы техподдержки.

          По поводу мошенников, они сейчас проводят прозвоны и сбросы трубок, тоже это делают не вручную. Ну и информация у них очень индивидуальная. Они до звонка проводят свой автоматический анализ поведения людей и только потом звонят. Звонки случайным людям в прошлом, у профессионалов вся информация о тебе. В будущем приложение Макс которые соберут о тебе аналитику вообще сделают всю работу до звонка.
  • Rostislav Kudryashov
    26 декабря 2025, 22:47
    Зачем кому-то греческий язык?
    Читал когда-то «Мой большой греческий ремонт»: никак не вдохновляет на греческий.
  • StarSol
    26 декабря 2025, 22:48
    Главная и основная проблема ИИ в том, что это черный ящик. Поэтому, при ответственном отношении, нормальному заказчику результата не понятно, как была решена задача и чтобы проверить правильно ли решена поставленная задача или нет, нужно затратить гораздо больше времени и сил, чем сделать это самому ;)
    • Rostislav Kudryashov
      26 декабря 2025, 22:55
      StarSol,  22:48 Если бы ИИ обучали на той Биг-Дате, которая была в распоряжении Тихо Браге, Кеплера и Галилея, человечество, ведомое ИИ, так и осталось бы в плену догматов Аристотелевой физики.
      • StarSol
        26 декабря 2025, 23:02
        Rostislav Kudryashov, Именно. Кто из людей в состоянии оценить весь объём того, что-то "скормлено" ИИ? Никто! А уж какие "выводы" сделал из этого ИИ, вообще никому не известно.
    • Dertysew
      26 декабря 2025, 23:03
      StarSol, что значит непонятно как была решена задача? Если ты попросишь ИИ расписать как считать 2+2*2 то ии напишет тебе алгоритм решения задачи
      • Rostislav Kudryashov
        26 декабря 2025, 23:26
        Dertysew, Сегодня в 23:03
        ии напишет тебе алгоритм решения задачи
        Это не так! Читай
        Начало ссылки sourestdeeds.github.io/pdf/Deep Learning with Python.pdf Конец ссылки
        «Deep Learning with Python 2Ed» Fransois Chollet
        или хотя бы
        m.vk.com/wall-138477641_3519?lang=en
        psv4.userapi.com/c816431/u11290018/docs/409bbb6f61f7/Sozdaem_neyronnuyu_set.pdf?extra=poI1mTHJmemnX_sjzbrjKF6Mye_ImwtdVuRr7N8HLh6Vo6THNyds1CNlKwluERq_UykUcqRP8AWNGVtIJ-Y5GuwKoqybDMx0pTTCxSKmaIn8G3Wim6BmMesbkhI679o5XnMu7zvpQA
        www.are.na/block/1793365
        «Создаём нейронную сеть» Тарик Рашид
        Решение ИИ — это обученная на подготовленных данных нейросеть, состоящая из блоков линейных и нелинейных алгербаических преобразований, матриц с миллиардами оптимизированных в ходе обучения числовых коэффициентов.

        PS Чтобы научить нейросеть в системе Керас на Питоне «предсказывать» значения функции sin(x) мне хватило нескольких таких блоков с несколькими сотнями числовых коэффициентов.
        Хотя, если не использовать таблицы Брадиса, в компьютере функция sin(x) реализуется несколькими десятками машинных команд.
        • Dertysew
          26 декабря 2025, 23:25
          Rostislav Kudryashov, ИИ это нейросеть. Нейросеть это числовые коэффициенты, ок.

          Эти числовые коэффициенты могут решить задачу 2+2*2 и могут написать решение задачи. Какая разница какой именно числовой коэффициент решил задачу если задача была решена и был предоставлен правильный алгоритм решения задачи?
          Если компьютер делает сложение 2+2 ты же не проверяешь решение компьютера в двоичном коде на уровне машинного кода?
          • Александр
            29 декабря 2025, 07:01
            Dertysew, по мне это два разных подхода. 
            Компьютер действует по заданному алгоритму. Правильный алгоритм дает правильный результат в 100% случаев. 100% повторяемость дает возможность усложнять простые задачи (2+2) до уровней доступных производственными мощностями.
            ИИ развитие которых мы свидетели — ото лингвистическая модель. Если при недопустимых вводных компьютер выдаст ошибку, то ИИ выдаст ответ не особо парясь его истинности. Никто и не скрывает, что точность результата менее 100%. При этом когда поступает задача на предоставления алгоритма, ИИ не анализирует свой предыдущий ответ, а генерит  новый текст на основе предыдущего ответа с точностью менее 100%.
            Отсюда и возможные опасности. Если ты доверил ИИ сделать реферат про верблюдов, то цена ошибки минимальна. А если доверил управление сложной системой, то накопленная  ошибка легко сможет стать катастрофичной. 
            • Dertysew
              29 декабря 2025, 23:31
              Александр, да, при работе с безопасностью нужно делать анализ работы нейросетей, человеческий и машинный.

              Однако не нужно думать что человеки не совершают катастрофических ошибок. Анализ катастроф последних лет скажет тебе простую мысль о том, что человеческий фактор до сих пор это главный фактор причины катастроф.

              Кстати, как работает человеческий мозг мы до сих пор не знаем до конца, но это не мешает им пользоваться. Почему же мозгом мы пользуемся, а нейросетями пользоваться нельзя? И там, и там могут быть ошибки и ещё неизвестно где их больше.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн