19 февраля 2025, 22:26

Третьесортные знания для стран третьего мира

Добрый вечер, коллеги!

В Пн 03.02.25 я сподобился приобрести подписку Pro на ChatGPT. Это недешево ($200/мес.), но очень полезно для работы. Модель o1pro очень неплоха, у 4o контекстное окно 128000 токенов (100 страниц формата A4 против 8000 токенов для подписки Plus, бесплатные варианты даже не обсуждаю), у o3 mini-high слабее ограничения на число запросов. Ну и самое главное — доступны опции Agent и Deep Research.

Речь пойдет о Deep Research. Эта такая крутая энжина, которая проводит полноценное исследование по интересующей тебя тематике. Сопит и пыхтит минут 30, лопатит весь доступный интернет и выдает саммари на 20-30 страниц с самим исследованием и перечнем первоисточников со ссылками. Ну это как промпт составить, здесь тоже целое искусство.
Работает очень хорошо, специалисту на подготовку такого отчета потребуется часов 6-8, неспециалисту — неделя (и результат будет плох, скорее).

Но хохма не в этом.
Меня заинтересовали отдельные аспекты интернет-трафика, в которых я слабо шарю (как ламер). Но любопытство меня одолевало, поэтому я попросил товарища с подпиской Pro запустить Deep Research, пока я тренировался с кредитками для оплаты (отдельный квест).
Он прислал мне свой отчет, а уже вечером я запустил свой.

Каково же было мое удивление, когда я получил 2 совершенно разных отчета по одному и тому же промпту!

Ну, я человек упертый, поэтому стал исследовать, какие параметры влияют на итоговый отчет.
Методом научного тыка было установлено, что на содержимое отчета влияет тип браузера и региональные установки. И если в Chrome это зависит только от учетной записи, то в Edge — от региональных установок Bing (здесь и далее — речь только про Windows).

Я завелся, и изготовил 8 отчетов (ниже в списке — модель, тип VPN, браузер и региональные установки, длина документа приведена в числе слов, посчитанных Word).

o3mh VPN Edge ENUS (9007 слов) – сжато и конкретно, мне понравился больше всего
o1pro proxy Edge ENUK (9171 слов) – подробнее, но меньше охват по темам
o1pro VPN Edge ENUS (8921 слов) – сжато и по делу, чуть меньше охват по темам
4o VPN Edge ENUS (8968 слов) – хорошо, но слабее o1 и o3
o1pro VPN Edge RURU (6143 слова) – сжато, но слабо
o1pro VPN Chrome RURU (10784 слов) – много воды, слабее
o1pro VPN Edge RUWW (7715 слов) – много воды, еще слабее
o3mh VPN Edge ENUK (4407 слов) – самый слабый (?!)

Что видно невооруженным глазом? Длина отчета может отличаться в 2.5 раза.
Что видно вооруженным глазом? Длина отчета не влияет на его содержательность, так отчет в Chrome самый длинный, но и самый водянистый (ни о чем).
Идеальные отчеты выдают модели o3mh и o1pro в регионе ENUS. Теперь пользуюсь только ими.

Вопрос: теперь сообщаемые LLM знания будут зависеть от региона?! Ну т.е. как регионально таргетируется реклама?!

Не, я понимаю, что составление отчета требует полазить в интернете, а выдача ссылок браузером точно зависит от региональных настроек. Но разница в длине отчета в 2.5 раза?!

Что вы думаете по этому вопросу, коллеги?

С уважением

P.S. Если интересно — могу поделиться опытом программирования математических задач с помощью Canvas. Вкратце — это лютый трэш...
P.P.S. Хочу слегка огорчить всех, кто тихонько надрачивает на китайский Deep Suck.
Чтобы затестить рассуждающую нейросеть — надо просто задать ей сложный вопрос. Ответ на который нельзя найти в опубликованной книге или в одной конкретной статье. А нужно прочитать 3-5-10 статей и попытаться сделать выводы.
Тест (моя бывшая специальность): Рассчитай K3 группы Милнора и Квиллена для поля рациональных чисел
Ответ ChatGPT o3-mini-high: Z6 и Z48 (циклические группы порядков 6 и 48) — правильный
Ответ Deep Suck: Z+Z2 и Z24+Z2 (Z — аддитивная группа целых чисел) — полная чушь, слегка похожая на правду. Проблема в том, что первая группа — это подгруппа второй
При этом Deep Suck начинает рассуждать правильно, а потом пишет «очевидно, что...» а дальше вообще лютый треш «таким образом, данный вывод подтвержден как теоретически, так и экспериментально». Какие, б@ядь, эксперименты с высшими K-группами?!

ChatGPT искусственный интеллект

Мальчик buybuy

Lisboa

430

24 393

с 11 августа 2018

44 Комментария

Auximen
19 февраля 2025, 22:42
В общении с нейросетями главное — это промт — формулировка вопроса. Об этом написаны книги, в которых рассказывается, как надо задавать вопросы.
-1
Миллиардер из Сибири
19 февраля 2025, 23:15
Это же нейросети. Даже просто немного измененная выдача гугла, может изменить в корне ответ. Тем более в этой приблуде, которая вероятно прогоняет через себя не один запрос, пока готовит финальный результат. Как эффект бабочки короче)
+1
Мальчик buybuy
19 февраля 2025, 23:14
Makstrade, по Квиллену верно

По Милнору — нет (см. выше)

С уважением
0
Мальчик buybuy
19 февраля 2025, 23:17
Makstrade, да

o1 выдает неверный ответ (не стал об этом писать)
o3 уже рассуждает правильно

С уважением
0