Добрый вечер, коллеги!
В Пн 03.02.25 я сподобился приобрести подписку Pro на ChatGPT. Это недешево ($200/мес.), но очень полезно для работы. Модель o1pro очень неплоха, у 4o контекстное окно 128000 токенов (100 страниц формата A4 против 8000 токенов для подписки Plus, бесплатные варианты даже не обсуждаю), у o3 mini-high слабее ограничения на число запросов. Ну и самое главное — доступны опции Agent и Deep Research.
Речь пойдет о Deep Research. Эта такая крутая энжина, которая проводит полноценное исследование по интересующей тебя тематике. Сопит и пыхтит минут 30, лопатит весь доступный интернет и выдает саммари на 20-30 страниц с самим исследованием и перечнем первоисточников со ссылками. Ну это как промпт составить, здесь тоже целое искусство.
Работает очень хорошо, специалисту на подготовку такого отчета потребуется часов 6-8, неспециалисту — неделя (и результат будет плох, скорее).
Но хохма не в этом.
Меня заинтересовали отдельные аспекты интернет-трафика, в которых я слабо шарю (как ламер). Но любопытство меня одолевало, поэтому я попросил товарища с подпиской Pro запустить Deep Research, пока я тренировался с кредитками для оплаты (отдельный квест).
Он прислал мне свой отчет, а уже вечером я запустил свой.
Каково же было мое удивление, когда я получил 2 совершенно разных отчета по одному и тому же промпту!
Ну, я человек упертый, поэтому стал исследовать, какие параметры влияют на итоговый отчет.
Методом научного тыка было установлено, что на содержимое отчета влияет тип браузера и региональные установки. И если в Chrome это зависит только от учетной записи, то в Edge — от региональных установок Bing (здесь и далее — речь только про Windows).
Я завелся, и изготовил 8 отчетов (ниже в списке — модель, тип VPN, браузер и региональные установки, длина документа приведена в числе слов, посчитанных Word).
- o3mh VPN Edge ENUS (9007 слов) – сжато и конкретно, мне понравился больше всего
- o1pro proxy Edge ENUK (9171 слов) – подробнее, но меньше охват по темам
- o1pro VPN Edge ENUS (8921 слов) – сжато и по делу, чуть меньше охват по темам
- 4o VPN Edge ENUS (8968 слов) – хорошо, но слабее o1 и o3
- o1pro VPN Edge RURU (6143 слова) – сжато, но слабо
- o1pro VPN Chrome RURU (10784 слов) – много воды, слабее
- o1pro VPN Edge RUWW (7715 слов) – много воды, еще слабее
- o3mh VPN Edge ENUK (4407 слов) – самый слабый (?!)
Что видно невооруженным глазом? Длина отчета может отличаться в 2.5 раза.
Что видно вооруженным глазом? Длина отчета не влияет на его содержательность, так отчет в Chrome самый длинный, но и самый водянистый (ни о чем).
Идеальные отчеты выдают модели o3mh и o1pro в регионе ENUS. Теперь пользуюсь только ими.
Вопрос: теперь сообщаемые LLM знания будут зависеть от региона?! Ну т.е. как регионально таргетируется реклама?!
Не, я понимаю, что составление отчета требует полазить в интернете, а выдача ссылок браузером точно зависит от региональных настроек. Но разница в длине отчета в 2.5 раза?!
Что вы думаете по этому вопросу, коллеги?
С уважением
P.S. Если интересно — могу поделиться опытом программирования математических задач с помощью Canvas. Вкратце — это лютый трэш...
P.P.S. Хочу слегка огорчить всех, кто тихонько надрачивает на китайский Deep Suck.
Чтобы затестить рассуждающую нейросеть — надо просто задать ей сложный вопрос. Ответ на который нельзя найти в опубликованной книге или в одной конкретной статье. А нужно прочитать 3-5-10 статей и попытаться сделать выводы.
Тест (моя бывшая специальность): Рассчитай K3 группы Милнора и Квиллена для поля рациональных чисел
Ответ ChatGPT o3-mini-high: Z6 и Z48 (циклические группы порядков 6 и 48) — правильный
Ответ Deep Suck: Z+Z2 и Z24+Z2 (Z — аддитивная группа целых чисел) — полная чушь, слегка похожая на правду. Проблема в том, что первая группа — это подгруппа второй
При этом Deep Suck начинает рассуждать правильно, а потом пишет «очевидно, что...» а дальше вообще лютый треш «таким образом, данный вывод подтвержден как теоретически, так и экспериментально». Какие, б@ядь, эксперименты с высшими K-группами?!
По Милнору — нет (см. выше)
С уважением
o1 выдает неверный ответ (не стал об этом писать)
o3 уже рассуждает правильно
С уважением