Блог им. RationalAnswer

Что общего у изучения иностранного языка и тестирования нейросетей

В новостях нам чуть ли не каждую неделю рассказывают о том, что очередная новая AI-моделька начисто победила людей в каком-нибудь супер-невозможном бенчмарке – а значит, нас ждет полная доминация жестянок уже не далее, чем завтра. И меня тут внезапно настигло чувство дежавю с тем, как я два года назад изучал греческий (потерпите, сейчас всё станет понятно).

Что общего у изучения иностранного языка и тестирования нейросетей

В 2024 году я чуть больше чем за полгода занятий с репетитором подготовился и сдал экзамен по греческому языку сразу двух уровней A2 и B1 на «отлично» (или, как говорят греки, «αρίστα»).

Но есть нюанс! Говорить/писать на греческом более-менее свободно я так и не могу. Потому что задачи «сдать экзамен по языку» и «выучить язык» хоть и являются частично пересекающимися, но они далеко не идентичны. И в условиях ограниченных ресурсов, решить первую задачу сверх-оптимизацией получаемых знаний и навыков конкретно под узкую цель «получить все нужные галочки на экзамене» – это гораздо легче, чем прямо «по-честному» осваивать весь широкий набор языковых навыков.

Похожая проблема существует и в мире бенчмарков для оценки искусственного интеллекта. Базовая логика у них понятна: «давайте возьмем какой-нибудь набор задач, которые люди более-менее умеют решать своим мясным умишком с успешностью в среднем эдак 80% – и, если AI их в этом обгонит, то можно заключить, что он уже умнее человека!»

Загвоздка здесь в том, что как только такого рода бенчмарк публикуют, и он привлекает к себе общественное внимание – достичь цели «набрать самый высокий результат и победить на этом фестивале писькомерства между альтмасками и цукербринами» оказывается гораздо проще не через длинный путь «делаем сверх-умную модель, которая вообще всё делает оче-оче круто, в том числе и этот набор задач», а через банальное задрачивание модели на конкретный тип задач в этом тесте.

К чему это я? Тут нейросети на днях успешно забороли очередной «непобедимый бенчмарк по креативности, который уж точно может решить только по-настоящему генерализованный интеллект не хуже человеческого» (читайте подробное описание сути дела у Игоря Котенкова). Значит ли это, что, наконец, «AGI achieved»? Ну, э-э, скорее нет, чем да (по причинам, описанным выше).

Что общего у изучения иностранного языка и тестирования нейросетей

Отдельный здесь кек – это то, что для решениях самых сложных задач в такого рода бенчмарках нейросети уже не просто кидают на амбразуру с наказом «ну ты это, постарайся там». Нет, им сейчас делают целый обвес специальных правил, как правильно методологически раскалывать такие орешки. Типа: ты сначала нагенерируй 100 разных ответов на этот вопрос, потом каждый ответ попробуй заново подставить к задачке и прикинь «а не херню ли я сделала?», а потом еще пусть итоговое решение отберет из прошедших предыдущие фильтры вообще другая строгая нейросеть-критик.

И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

7.5К | ★2
20 комментариев
Да-да. Обвесить модель правильными промптами почему-то считается достижением нейросетки, а не того кожаного индивида, кто эти промпты генерил )))
avatar
Калимера 
Гамота 
Эла  — ре   

И вот это ихнее блюдо запенка из Манки — фу 

А так греки прелестные люди)  
Слова выше — произвольные и не обращены к автору поста.   
avatar
avatar
И тут уже возникает вопрос: а можно ли считать, что тут действительно валидным будет утверждение «модель XXX решила бенчмарк YYY»? Ведь, в каком-то смысле, тут не сама модель придумала вот этот весь алгоритм – а кожаные датасаентисты сами его подобрали таким образом, чтобы максимизировать получающийся результат.

Как бы да, но... Известно что с разбегу решать олимпиадные задачи могут не только лишь всё. Никто практически не может )

А вот если поднатаскать, порешать разных задач под руководством наставника, то это уже реально.

Получается особой разницы нет между кожаными мешками и ИИ в этом.

Отличие большое что у ИИ нет (и пока не может быть) собственного опыта взаимодействия с миром. А вот когда появится да еще и мощность сеток раз в 100 добавить, что тогда будет — это вопрос.
avatar
А тем временем google вывозит свои сервера из России 🤣
На крипте все ИИ «благополучно» слились.
На акциях Грок-4-20 пока тужится, но остальные, в том числе и его старший брат, в глубокой жо.
avatar
Когда Джеймс Уатт усовершенствовал паровую машину, он не придумывал для неё тесты и бенчмарки, а сразу запряг в общественно-полезное дело.
Точно так же ЭВМ разрабатывали сразу для решения конкретных задач.

А вот ИИ пока что, сверх генерации бессодержательной болтовни в чатах, ограничивается решением уже давно решённых математиками и физиками задач. В РФ под применение ИИ в управлении плавкой стали или транспортными потоками очковтиратели выколачивают приличные денежки из казны.
Недавно на cnews.ru привели данные, что применение ИИ на 20% увеличивает сроки и трудоёмкость разработки больших программных комплексов.
avatar
Rostislav Kudryashov, ИИ уже сократил компьютерных художников, телефонных операторов и далее будет сокращать профессии
avatar
Dertysew, ну и как часто вы общаетесь с ИИ телефонным оператором? Много ли он решил проблем пользователей. По мне это не метод помочь клиенту, а метод послать его. С входящими звонками то же самое, при первом предчувствие, что со мной говорит ИИ, разговор прекращается. Заметьте, мошенники, для которых нужен именно результат общения с вами — используют обычных людей, а корпорации которые не хотят тратятся на своих клиентов — используют скриптованные ИИ. 
avatar
Александр, по телефону с роботом не общался, но в чате брокера было несколько случаев когда мне хватило ответов от нейросети. Каждая сэкономленная минута от нейросети это уменьшение работы техподдержки.

По поводу мошенников, они сейчас проводят прозвоны и сбросы трубок, тоже это делают не вручную. Ну и информация у них очень индивидуальная. Они до звонка проводят свой автоматический анализ поведения людей и только потом звонят. Звонки случайным людям в прошлом, у профессионалов вся информация о тебе. В будущем приложение Макс которые соберут о тебе аналитику вообще сделают всю работу до звонка.
avatar
Зачем кому-то греческий язык?
Читал когда-то «Мой большой греческий ремонт»: никак не вдохновляет на греческий.
avatar
Rostislav Kudryashov, за паспортом
Главная и основная проблема ИИ в том, что это черный ящик. Поэтому, при ответственном отношении, нормальному заказчику результата не понятно, как была решена задача и чтобы проверить правильно ли решена поставленная задача или нет, нужно затратить гораздо больше времени и сил, чем сделать это самому ;)
avatar
StarSol,  22:48 Если бы ИИ обучали на той Биг-Дате, которая была в распоряжении Тихо Браге, Кеплера и Галилея, человечество, ведомое ИИ, так и осталось бы в плену догматов Аристотелевой физики.
avatar
Rostislav Kudryashov, Именно. Кто из людей в состоянии оценить весь объём того, что-то "скормлено" ИИ? Никто! А уж какие "выводы" сделал из этого ИИ, вообще никому не известно.
avatar
StarSol, что значит непонятно как была решена задача? Если ты попросишь ИИ расписать как считать 2+2*2 то ии напишет тебе алгоритм решения задачи
avatar
Dertysew, Сегодня в 23:03
ии напишет тебе алгоритм решения задачи
Это не так! Читай
Начало ссылки sourestdeeds.github.io/pdf/Deep Learning with Python.pdf Конец ссылки
«Deep Learning with Python 2Ed» Fransois Chollet
или хотя бы
m.vk.com/wall-138477641_3519?lang=en
psv4.userapi.com/c816431/u11290018/docs/409bbb6f61f7/Sozdaem_neyronnuyu_set.pdf?extra=poI1mTHJmemnX_sjzbrjKF6Mye_ImwtdVuRr7N8HLh6Vo6THNyds1CNlKwluERq_UykUcqRP8AWNGVtIJ-Y5GuwKoqybDMx0pTTCxSKmaIn8G3Wim6BmMesbkhI679o5XnMu7zvpQA
www.are.na/block/1793365
«Создаём нейронную сеть» Тарик Рашид
Решение ИИ — это обученная на подготовленных данных нейросеть, состоящая из блоков линейных и нелинейных алгербаических преобразований, матриц с миллиардами оптимизированных в ходе обучения числовых коэффициентов.

PS Чтобы научить нейросеть в системе Керас на Питоне «предсказывать» значения функции sin(x) мне хватило нескольких таких блоков с несколькими сотнями числовых коэффициентов.
Хотя, если не использовать таблицы Брадиса, в компьютере функция sin(x) реализуется несколькими десятками машинных команд.
avatar
Rostislav Kudryashov, ИИ это нейросеть. Нейросеть это числовые коэффициенты, ок.

Эти числовые коэффициенты могут решить задачу 2+2*2 и могут написать решение задачи. Какая разница какой именно числовой коэффициент решил задачу если задача была решена и был предоставлен правильный алгоритм решения задачи?
Если компьютер делает сложение 2+2 ты же не проверяешь решение компьютера в двоичном коде на уровне машинного кода?
avatar
Dertysew, по мне это два разных подхода. 
Компьютер действует по заданному алгоритму. Правильный алгоритм дает правильный результат в 100% случаев. 100% повторяемость дает возможность усложнять простые задачи (2+2) до уровней доступных производственными мощностями.
ИИ развитие которых мы свидетели — ото лингвистическая модель. Если при недопустимых вводных компьютер выдаст ошибку, то ИИ выдаст ответ не особо парясь его истинности. Никто и не скрывает, что точность результата менее 100%. При этом когда поступает задача на предоставления алгоритма, ИИ не анализирует свой предыдущий ответ, а генерит  новый текст на основе предыдущего ответа с точностью менее 100%.
Отсюда и возможные опасности. Если ты доверил ИИ сделать реферат про верблюдов, то цена ошибки минимальна. А если доверил управление сложной системой, то накопленная  ошибка легко сможет стать катастрофичной. 
avatar
Александр, да, при работе с безопасностью нужно делать анализ работы нейросетей, человеческий и машинный.

Однако не нужно думать что человеки не совершают катастрофических ошибок. Анализ катастроф последних лет скажет тебе простую мысль о том, что человеческий фактор до сих пор это главный фактор причины катастроф.

Кстати, как работает человеческий мозг мы до сих пор не знаем до конца, но это не мешает им пользоваться. Почему же мозгом мы пользуемся, а нейросетями пользоваться нельзя? И там, и там могут быть ошибки и ещё неизвестно где их больше.
avatar

Читайте на SMART-LAB:
Фото
EUR/USD: Праздники окончены — быки выходят на охоту?
В первый торговый день недели пара EUR/USD устроила эффектную проверку на прочность. Котировки протестировали точку пересечения линии восходящего...
Фото
Итоги первичных размещений ВДО и некоторых розничных выпусков на 5 января 2026 г.
Следите за нашими новостями в удобном формате:  Telegram ,  Youtube ,  Смартлаб ,  Вконтакте ,  Сайт
Фото
Прогнозы на 2026 год от аналитиков «Финама»: акции
Эксперты «Финама» поделились своими прогнозами на 2026 год и назвали самые перспективные идеи на рынке России, США и Китая....

теги блога Павел Комаровский

....все тэги



UPDONW
Новый дизайн