Что общего у изучения иностранного языка и тестирования нейросетей

26 декабря 2025, 11:52
|
Павел Комаровский

В новостях нам чуть ли не каждую неделю рассказывают о том, что очередная новая AI-моделька начисто победила людей в каком-нибудь супер-невозможном бенчмарке – а значит, нас ждет полная доминация жестянок уже не далее, чем завтра. И меня тут внезапно настигло чувство дежавю с тем, как я два года назад изучал греческий (потерпите, сейчас всё станет понятно).

Что общего у изучения иностранного языка и тестирования нейросетей

В 2024 году я чуть больше чем за полгода занятий с репетитором подготовился и сдал экзамен по греческому языку сразу двух уровней A2 и B1 на «отлично» (или, как говорят греки, «αρίστα»).

Но есть нюанс! Говорить/писать на греческом более-менее свободно я так и не могу. Потому что задачи «сдать экзамен по языку» и «выучить язык» хоть и являются частично пересекающимися, но они далеко не идентичны. И в условиях ограниченных ресурсов, решить первую задачу сверх-оптимизацией получаемых знаний и навыков конкретно под узкую цель «получить все нужные галочки на экзамене» – это гораздо легче, чем прямо «по-честному» осваивать весь широкий набор языковых навыков.

Похожая проблема существует и в мире бенчмарков для оценки искусственного интеллекта. Базовая логика у них понятна: «давайте возьмем какой-нибудь набор задач, которые люди более-менее умеют решать своим мясным умишком с успешностью в среднем эдак 80% – и, если AI их в этом обгонит, то можно заключить, что он уже умнее человека!»

Загвоздка здесь в том, что как только такого рода бенчмарк публикуют, и он привлекает к себе общественное внимание – достичь цели «набрать самый высокий результат и победить на этом фестивале писькомерства между альтмасками и цукербринами» оказывается гораздо проще не через длинный путь «делаем сверх-умную модель, которая вообще всё делает оче-оче круто, в том числе и этот набор задач», а через банальное задрачивание модели на конкретный тип задач в этом тесте.

К чему это я? Тут нейросети на днях успешно забороли очередной «непобедимый бенчмарк по креативности, который уж точно может решить только по-настоящему генерализованный интеллект не хуже человеческого» (читайте подробное описание сути дела у Игоря Котенкова). Значит ли это, что, наконец, «AGI achieved»? Ну, э-э, скорее нет, чем да (по причинам, описанным выше).

Отдельный здесь кек – это то, что для решениях самых сложных задач в такого рода бенчмарках нейросети уже не просто кидают на амбразуру с наказом «ну ты это, постарайся там». Нет, им сейчас делают целый обвес специальных правил, как правильно методологически раскалывать такие орешки. Типа: ты сначала нагенерируй 100 разных ответов на этот вопрос, потом каждый ответ попробуй заново подставить к задачке и прикинь «а не херню ли я сделала?», а потом еще пусть итоговое решение отберет из прошедших предыдущие фильтры вообще другая строгая нейросеть-критик.

И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

7.7К | ★2

20 комментариев

Да-да. Обвесить модель правильными промптами почему-то считается достижением нейросетки, а не того кожаного индивида, кто эти промпты генерил )))

tradeformation

26 декабря 2025, 12:45
Ответить

Калимера
Гамота
Эла — ре

И вот это ихнее блюдо запенка из Манки — фу

А так греки прелестные люди)
Слова выше — произвольные и не обращены к автору поста.

Sergey Lebedev

26 декабря 2025, 14:16
Ответить

Игорь ПМ

26 декабря 2025, 16:53
Ответить

И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

Как бы да, но... Известно что с разбегу решать олимпиадные задачи могут не только лишь всё. Никто практически не может )

А вот если поднатаскать, порешать разных задач под руководством наставника, то это уже реально.

Получается особой разницы нет между кожаными мешками и ИИ в этом.

Отличие большое что у ИИ нет (и пока не может быть) собственного опыта взаимодействия с миром. А вот когда появится да еще и мощность сеток раз в 100 добавить, что тогда будет — это вопрос.

Alexs

26 декабря 2025, 18:50
Ответить

А тем временем google вывозит свои сервера из России 🤣

Золотая Жаба

26 декабря 2025, 19:03
Ответить

На крипте все ИИ «благополучно» слились.
На акциях Грок-4-20 пока тужится, но остальные, в том числе и его старший брат, в глубокой жо.

Petrov

26 декабря 2025, 19:05
Ответить

Когда Джеймс Уатт усовершенствовал паровую машину, он не придумывал для неё тесты и бенчмарки, а сразу запряг в общественно-полезное дело.
Точно так же ЭВМ разрабатывали сразу для решения конкретных задач.

А вот ИИ пока что, сверх генерации бессодержательной болтовни в чатах, ограничивается решением уже давно решённых математиками и физиками задач. В РФ под применение ИИ в управлении плавкой стали или транспортными потоками очковтиратели выколачивают приличные денежки из казны.
Недавно на cnews.ru привели данные, что применение ИИ на 20% увеличивает сроки и трудоёмкость разработки больших программных комплексов.

Rostislav Kudryashov

26 декабря 2025, 22:17
Ответить

Rostislav Kudryashov, ИИ уже сократил компьютерных художников, телефонных операторов и далее будет сокращать профессии

Dertysew

26 декабря 2025, 23:00
Ответить

Dertysew, ну и как часто вы общаетесь с ИИ телефонным оператором? Много ли он решил проблем пользователей. По мне это не метод помочь клиенту, а метод послать его. С входящими звонками то же самое, при первом предчувствие, что со мной говорит ИИ, разговор прекращается. Заметьте, мошенники, для которых нужен именно результат общения с вами — используют обычных людей, а корпорации которые не хотят тратятся на своих клиентов — используют скриптованные ИИ.

Александр

29 декабря 2025, 06:33
Ответить

Александр, по телефону с роботом не общался, но в чате брокера было несколько случаев когда мне хватило ответов от нейросети. Каждая сэкономленная минута от нейросети это уменьшение работы техподдержки.

По поводу мошенников, они сейчас проводят прозвоны и сбросы трубок, тоже это делают не вручную. Ну и информация у них очень индивидуальная. Они до звонка проводят свой автоматический анализ поведения людей и только потом звонят. Звонки случайным людям в прошлом, у профессионалов вся информация о тебе. В будущем приложение Макс которые соберут о тебе аналитику вообще сделают всю работу до звонка.

Dertysew

29 декабря 2025, 23:20
Ответить

Зачем кому-то греческий язык?
Читал когда-то «Мой большой греческий ремонт»: никак не вдохновляет на греческий.

Rostislav Kudryashov

26 декабря 2025, 22:47
Ответить

Rostislav Kudryashov, за паспортом

Павел Комаровский

27 декабря 2025, 00:37
Ответить

Главная и основная проблема ИИ в том, что это черный ящик. Поэтому, при ответственном отношении, нормальному заказчику результата не понятно, как была решена задача и чтобы проверить правильно ли решена поставленная задача или нет, нужно затратить гораздо больше времени и сил, чем сделать это самому ;)

StarSol

26 декабря 2025, 22:48
Ответить

StarSol, 22:48 Если бы ИИ обучали на той Биг-Дате, которая была в распоряжении Тихо Браге, Кеплера и Галилея, человечество, ведомое ИИ, так и осталось бы в плену догматов Аристотелевой физики.

Rostislav Kudryashov

26 декабря 2025, 22:55
Ответить

Rostislav Kudryashov, Именно. Кто из людей в состоянии оценить весь объём того, что-то "скормлено" ИИ? Никто! А уж какие "выводы" сделал из этого ИИ, вообще никому не известно.

StarSol

26 декабря 2025, 23:02
Ответить

StarSol, что значит непонятно как была решена задача? Если ты попросишь ИИ расписать как считать 2+2*2 то ии напишет тебе алгоритм решения задачи

Dertysew

26 декабря 2025, 23:03
Ответить

Dertysew, Сегодня в 23:03

ии напишет тебе алгоритм решения задачи

Это не так! Читай
Начало ссылки sourestdeeds.github.io/pdf/Deep Learning with Python.pdf Конец ссылки
«Deep Learning with Python 2Ed» Fransois Chollet
или хотя бы
m.vk.com/wall-138477641_3519?lang=en
psv4.userapi.com/c816431/u11290018/docs/409bbb6f61f7/Sozdaem_neyronnuyu_set.pdf?extra=poI1mTHJmemnX_sjzbrjKF6Mye_ImwtdVuRr7N8HLh6Vo6THNyds1CNlKwluERq_UykUcqRP8AWNGVtIJ-Y5GuwKoqybDMx0pTTCxSKmaIn8G3Wim6BmMesbkhI679o5XnMu7zvpQA
www.are.na/block/1793365
«Создаём нейронную сеть» Тарик Рашид
Решение ИИ — это обученная на подготовленных данных нейросеть, состоящая из блоков линейных и нелинейных алгербаических преобразований, матриц с миллиардами оптимизированных в ходе обучения числовых коэффициентов.

PS Чтобы научить нейросеть в системе Керас на Питоне «предсказывать» значения функции sin(x) мне хватило нескольких таких блоков с несколькими сотнями числовых коэффициентов.
Хотя, если не использовать таблицы Брадиса, в компьютере функция sin(x) реализуется несколькими десятками машинных команд.

Rostislav Kudryashov

26 декабря 2025, 23:26
Ответить

Rostislav Kudryashov, ИИ это нейросеть. Нейросеть это числовые коэффициенты, ок.

Эти числовые коэффициенты могут решить задачу 2+2*2 и могут написать решение задачи. Какая разница какой именно числовой коэффициент решил задачу если задача была решена и был предоставлен правильный алгоритм решения задачи?
Если компьютер делает сложение 2+2 ты же не проверяешь решение компьютера в двоичном коде на уровне машинного кода?

Dertysew

26 декабря 2025, 23:25
Ответить

Dertysew, по мне это два разных подхода.
Компьютер действует по заданному алгоритму. Правильный алгоритм дает правильный результат в 100% случаев. 100% повторяемость дает возможность усложнять простые задачи (2+2) до уровней доступных производственными мощностями.
ИИ развитие которых мы свидетели — ото лингвистическая модель. Если при недопустимых вводных компьютер выдаст ошибку, то ИИ выдаст ответ не особо парясь его истинности. Никто и не скрывает, что точность результата менее 100%. При этом когда поступает задача на предоставления алгоритма, ИИ не анализирует свой предыдущий ответ, а генерит новый текст на основе предыдущего ответа с точностью менее 100%.
Отсюда и возможные опасности. Если ты доверил ИИ сделать реферат про верблюдов, то цена ошибки минимальна. А если доверил управление сложной системой, то накопленная ошибка легко сможет стать катастрофичной.

Александр

29 декабря 2025, 07:01
Ответить

Александр, да, при работе с безопасностью нужно делать анализ работы нейросетей, человеческий и машинный.

Однако не нужно думать что человеки не совершают катастрофических ошибок. Анализ катастроф последних лет скажет тебе простую мысль о том, что человеческий фактор до сих пор это главный фактор причины катастроф.

Кстати, как работает человеческий мозг мы до сих пор не знаем до конца, но это не мешает им пользоваться. Почему же мозгом мы пользуемся, а нейросетями пользоваться нельзя? И там, и там могут быть ошибки и ещё неизвестно где их больше.

Dertysew

29 декабря 2025, 23:31
Ответить

Читайте на SMART-LAB:

Нашим «Пакетом» пользуются уже 2,5 млн подписчиков

📊 В первом полугодии 2026 года число активных пользователей сервиса «Пакет» выросло на 25% год к году, до 2,5 млн человек. За этот период они...

X5 Group

10:21

МГКЛ выходит на рынок Индии

Совет директоров ПАО «МГКЛ» принял решение учредить юридическое лицо в международном финансовом центре GIFT City в штате Гуджарат. Это...

MGKL

09:01

Акции золотодобытчиков — точно защитный актив?

Золото исторически выступает тихой гаванью, и бумаги производителей металла в теории должны защищать в кризис. На практике — не без...

БКС Мир Инвестиций

13:33

АЛРОСА на дне (18 руб за 1 акцию), но со дна продолжают стучать - есть ли шансы на иксы?

5 лет назад акции АЛРОСы стоили 150 рублей за 1 акцию и были сверхпопулярны — классный вечный сектор (все девушки любят бриллианты), большие...

Олег Кузьмичев

13 июля 2026, 18:54

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Что общего у изучения иностранного языка и тестирования нейросетей

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Павел Комаровский

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Что общего у изучения иностранного языка и тестирования нейросетей

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Павел Комаровский