Блог им. Eduard_X
VK представила обновленную языковую модель Diona, предназначенную для генерации и обработки текстов. Новая версия модели потребляет меньше ресурсов по сравнению с предыдущей, что снизило нагрузку на инфраструктуру и ускорило внутренние процессы компании. По оценкам источников, инвестиции в разработку составили 500–800 млн рублей.
При создании модели использовались наработки предыдущей версии, обученной на пользовательском контенте, включая комментарии из открытых групп «ВКонтакте». Также проводилось новое базовое обучение на больших объемах текстов. Диапазон параметров модели вырос в 1,5 раза и теперь составляет от 4 млрд до 30 млрд. По словам VK, Diona лучше справляется с инженерными задачами, генерацией и суммаризацией текстов, что открывает новые возможности для внутренних инструментов и генеративных функций продуктов компании.
Эксперты считают, что модель среднего сегмента с таким числом параметров может запускаться на потребительских видеокартах или доступных серверных GPU. По словам Александра Лебедева из Innostage, диапазон параметров подходит для локальных решений, однако модели с сотнями миллиардов параметров, применяемые в мировых лидерах ИИ, показывают более впечатляющие результаты.
Diona способна учитывать контекст объемом до 32 тыс. токенов, что в восемь раз больше, чем у предыдущей версии. Независимые эксперты отмечают, что по мировым меркам это не революционно, но для прикладных задач — работы с документами, анализа переписки и корпоративных отчетов — возможностей модели достаточно.
В будущем VK планирует сделать Diona мультимодальной, чтобы она могла обрабатывать видео, аудио и изображения и улучшить рекомендации и поиск в продуктах компании. Однако специалисты предупреждают, что мультимодальные модели требуют другой архитектуры и значительных вычислительных ресурсов. По прогнозам Артура Кольцова из Chad AI, VK сможет внедрить мультимодальность через 2–3 года, когда появятся более эффективные алгоритмы и доступное оборудование.
Таким образом, VK значительно улучшила собственную текстовую модель, увеличив число параметров и объем контекста, что позволит компании расширять возможности генеративного ИИ в продуктах, а мультимодальность станет следующим этапом развития модели.