Блог им. Koleso

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людейСегодня  Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей Созданное ИИ изображение ареста Дональда Трампа в окружении полиции в черной форме.

Шквал изображений, созданных искусственным интеллектом (ИИ), кажется продуктом совершенно современного инструмента. На самом деле, компьютеры десятилетиями стояли у мольберта.

В начале 1970-х художник Гарольд Коэн научил рисовать, используя раннюю систему искусственного интеллекта. «Аарон» мог поручить роботу рисовать черно-белые фигуры на бумаге; в течение десяти лет Коэн научил Аарона рисовать человеческие фигуры.

Сегодня модели «генеративного ИИ» наносят кисть на виртуальную бумагу: общедоступные приложения, такие как Midjourney и dall-e от OpenAI, создают изображения за считанные секунды на основе текстовых подсказок.

Конечные продукты часто обманывают людей. В марте сгенерированные искусственным интеллектом изображения Дональда Трампа в наручниках полиции стали вирусными в сети. И генераторы изображений быстро совершенствуются.

Как они работают и как совершенствуют свое мастерство?

Модели генеративного искусственного интеллекта — это тип глубокого обучения, программная техника, в которой используются слои взаимосвязанных узлов, которые приблизительно имитируют структуру человеческого мозга.

Модели, лежащие в основе генераторов изображений, обучаются на огромных наборах данных:

laion-5b, крупнейший из общедоступных, содержит 5,85 млрд помеченных изображений.

Наборы данных часто берутся из Интернета, в том числе из социальных сетей, библиотек стоковых фотографий и торговых сайтов.

Самые продвинутые генераторы изображений обычно используют тип генеративного ИИ, известный как диффузионная модель.

Они добавляют искажающий визуальный «шум» к изображениям в наборе данных, делая их похожими на аналоговое телевидение, которое все еще прерывается статическими помехами, до тех пор, пока изображения полностью не перекрываются. Узнав, как устранить беспорядок, модель может создать изображение, похожее на оригинал.

По мере того, как он становится лучше в распознавании групп пикселей, соответствующих определенным визуальным понятиям, он начинает сжимать, классифицировать и хранить эти знания в математическом кармане кода, известном как «скрытое пространство».

Допустим, вы просите приложение-генератор создать изображение бегемота. Модель, которая узнала, какие типы расположения пикселей соответствуют слову «бегемот» (см. рисунок слева), должна иметь возможность делать выборки из скрытого пространства для создания реалистичного изображения млекопитающего.

  Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей Диптих с изображением бегемотов, созданный сайтом-генератором ИИ. Слева фотография бегемота, справа картина маслом зеленого бегемота в реке Нил.

Добавление дополнительных деталей к подсказке — например, «картина маслом зеленого гиппопотама эпохи Возрождения где-то вдоль реки Нил» (см. рисунок справа) — требует, чтобы модель использовала дополнительные уровни визуальных деталей, такие как стиль изображения., текстуру, цвет и расположение, а также правильно их сочетать.

Ответы на сложные подсказки могут быть ошибочными, особенно если подсказка сформулирована нечетко или сцена, которую она описывает, недостаточно хорошо представлена в обучающем наборе данных. Даже, казалось бы, простая еда может сбить с толку моделей.

Человеческие руки часто изображаются с отсутствующими или лишними пальцами или пропорциями, нарушающими законы физики. Поскольку руки обычно менее заметны на фотографиях, чем лица, для моделей искусственного интеллекта существуют меньшие наборы данных, на которых они могут оттачивать свою технику.

Изворотливая симметрия лица — особенно несоответствие цвета и формы глаз, зубов и ушей — еще один признак работы машины. А генераторы изображений борются с текстом, часто создавая несуществующие буквы или воображаемые слова.

Разработчики могут помочь моделям учиться на своих ошибках, уточняя наборы данных, на которых они учатся, или настраивая алгоритмы. Midjourney недавно был обновлен, чтобы улучшить способ генерации раздач.

Быстрые улучшения означают, что вскоре может стать невозможным отличить сгенерированное искусственным интеллектом изображение от реальной фотографии или картины.

Оригинал

P.S. Подпишись на канал ГлавИнформ —  ГИБбон  — о том как экономика, политика и технологии влияют на нашу жизнь.


теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн