По работе мне постоянно приходится быть в курсе разных нейросетей и простых решений на них, чтобы подсмотреть часть идей для использования в компании. В феврале я наткнулся на исследование OpenAI под названием SWE-Lancer, в котором ИИ должен был заработать $1 млн .
Что такое SWE-Lancer? Если коротко, то
Опытные специалисты из OpenAI (разработчик ChatGPT) выгрузили с фриланс-биржи Upwork кучу задач. Далее отобрали только те, где в описании есть все данные для решения задачи. Осталось 1488 штуки. После этого начали тестировать как с ними справятся нейросети.
Сколько «заработали» нейросети (в теории)?
Самая лучшая на тот момент, Claude 3.5 Sonnet, успешно справилась с 26,2% задач кодирования и 44,9% решений по управлению проектами (например: выбор подрядчиков, оценка рисков, распределение бюджета).
Что меня особенно заинтересовало в этом исследовании: ИИ оказался сильнее в принятии решений, чем в написании кода, при том, что в СМИ рассуждают о программистах, копирайтерах и дизайнерах. У меня на работе больше менеджеров, чем программистов, но есть вероятность, что они не очень будут рады новым возможностям по использованию нейросетей.