Блог им. Koleso

ChatGPT — чудо многоязычия. Он может что-то выдумывать, но делает это бегло на более чем 50 языках

ChatGPT — чудо многоязычия. Он может что-то выдумывать, но делает это бегло на более чем 50 языках 

Ажиотаж, последовавший за публичным запуском Chatgpt в прошлом году, был экстремальным даже по меркам технических инноваций. Система естественного языка Openai создает рецепты, пишет компьютерный код и пародирует литературные стили. Его последняя итерация может даже описывать фотографии.

Это было провозглашено технологическим прорывом наравне с печатным станком.

Но вскоре появились и огромные недостатки. Иногда ему «галлюцинируют» не-факты, которые он произносит с полной уверенностью, настаивая на этой лжи, когда его спрашивают. Он также не проходит базовые логические тесты.

Другими словами, Chatgpt — это не общий искусственный интеллект, независимая мыслящая машина. Говоря жаргонным языком, это большая языковая модель. Это означает, что он очень хорошо предсказывает, какие слова обычно следуют за другими, после обучения на огромном массиве текста — его разработчик, Openai, не говорит точно, откуда — и выявляет закономерности.

Среди шумихи легко забыть о маленьком чуде. Chatgpt решил проблему, которая долгое время была далекой мечтой инженеров: создание человекоподобного языка. В отличие от более ранних версий системы, она может продолжать делать это для нескольких абзацев подряд, не впадая в бессвязность.

И размеры этого достижения даже больше, чем кажутся на первый взгляд. Chatgpt не только способен генерировать удивительно реалистичный английский язык. Он также может мгновенно выпалить текст на более чем 50 языках — точное число, по-видимому, неизвестно самой системе.

На вопрос (по-испански), на скольких языках он может говорить, Chatgpt неопределенно отвечает: «более 50», объясняя, что его способность создавать текст будет зависеть от того, сколько обучающих данных доступно для любого языка. Затем, задав вопрос в необъявленном переключении на португальский, он предлагает набросок Вашей биографии на вашем родном языке.

Попробовав язык меньшего размера, исследовали Chatgpt на датском языке, на котором говорят всего около 5,5 миллионов человек. Датчане пишут в основном на английском языке, поэтому обучающих данных для датского языка должно быть на порядок меньше, чем для английского, испанского или португальского.

Ответы Chatgpt были на самом деле искаженными, но выражены почти идеальным датским языком.

Действительно, Chatgpt слишком скромно относится к собственным возможностям. По запросу он предоставляет список из 51 языка, на которых он может работать, включая эсперанто, каннада и зулу.

Он отказывается говорить, что может «говорить» на этих языках, а скорее «генерирует текст» на них. Это слишком скромный ответ. При обращении на каталанском языке, которого нет в списке, он отвечает «Да, я говорю по-каталонски — чем я могу вам помочь?»

Несколько дополнительных вопросов ни в малейшей степени не сбивают его с толку, в том числе вопрос о том, просто ли он переводит ответы, впервые сгенерированные на другом языке, на каталонский.

Это Chatgptотрицает: «Я не перевожу ни с какого другого языка; Я ищу в своей базе данных лучшие слова и фразы, чтобы ответить на ваши вопросы».

Кто знает, правда ли это?

Chatgpt не только выдумывает, но и неправильно отвечает на вопросы о самом разговоре, который он ведет.

(Он не имеет «памяти», а скорее возвращает себе последние несколько тысяч слов каждого разговора в качестве новой подсказки. Если вы какое-то время говорите по-английски, он «забудет», что ранее вы задавали вопрос на датском, и скажите, что вопрос был задан на английском языке.)

Chatgpt ненадежен не только в отношении мира, но даже в отношении самого себя. Это не должно затмевать достижение модели, которая может легко имитировать так много языков, в том числе с ограниченными данными для обучения. Носители малых языков годами беспокоились о том, что языковые технологии обходят их стороной.

Их оправданное беспокойство было вызвано двумя причинами: меньшим стимулом для компаний разрабатывать продукты на исландском или мальтийском языках и относительной нехваткой данных для их обучения. Каким-то образом разработчики Chatgpt, кажется, преодолели такие проблемы. Пока рано говорить о том, какую пользу принесет эта технология, но уже одно это дает повод для оптимизма.

По мере совершенствования методов машинного обучения они могут не требовать огромных ресурсов, времени программирования или данных, которые традиционно считались необходимыми для того, чтобы небольшие языки не упускались из виду в Интернете.

Оригинал

P.S. Подпишитесь на проект «КОГоть» — “КраткоОГлавном” в ТелеграмДзенVK и Youtube

  • Ключевые слова:
  • ChatGPT
1 комментарий
Что же грааль еще не написал этот GPT?)
avatar

теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн