Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей

11 июля 2023, 16:01
|
Андрей Колесников

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людейСегодня

Созданное ИИ изображение ареста Дональда Трампа в окружении полиции в черной форме.

Шквал изображений, созданных искусственным интеллектом (ИИ), кажется продуктом совершенно современного инструмента. На самом деле, компьютеры десятилетиями стояли у мольберта.

В начале 1970-х художник Гарольд Коэн научил рисовать, используя раннюю систему искусственного интеллекта. «Аарон» мог поручить роботу рисовать черно-белые фигуры на бумаге; в течение десяти лет Коэн научил Аарона рисовать человеческие фигуры.

Сегодня модели «генеративного ИИ» наносят кисть на виртуальную бумагу: общедоступные приложения, такие как Midjourney и dall-e от OpenAI, создают изображения за считанные секунды на основе текстовых подсказок.

Конечные продукты часто обманывают людей. В марте сгенерированные искусственным интеллектом изображения Дональда Трампа в наручниках полиции стали вирусными в сети. И генераторы изображений быстро совершенствуются.

Как они работают и как совершенствуют свое мастерство?

Модели генеративного искусственного интеллекта — это тип глубокого обучения, программная техника, в которой используются слои взаимосвязанных узлов, которые приблизительно имитируют структуру человеческого мозга.

Модели, лежащие в основе генераторов изображений, обучаются на огромных наборах данных:

laion-5b, крупнейший из общедоступных, содержит 5,85 млрд помеченных изображений.

Наборы данных часто берутся из Интернета, в том числе из социальных сетей, библиотек стоковых фотографий и торговых сайтов.

Самые продвинутые генераторы изображений обычно используют тип генеративного ИИ, известный как диффузионная модель.

Они добавляют искажающий визуальный «шум» к изображениям в наборе данных, делая их похожими на аналоговое телевидение, которое все еще прерывается статическими помехами, до тех пор, пока изображения полностью не перекрываются. Узнав, как устранить беспорядок, модель может создать изображение, похожее на оригинал.

По мере того, как он становится лучше в распознавании групп пикселей, соответствующих определенным визуальным понятиям, он начинает сжимать, классифицировать и хранить эти знания в математическом кармане кода, известном как «скрытое пространство».

Допустим, вы просите приложение-генератор создать изображение бегемота. Модель, которая узнала, какие типы расположения пикселей соответствуют слову «бегемот» (см. рисунок слева), должна иметь возможность делать выборки из скрытого пространства для создания реалистичного изображения млекопитающего.

Диптих с изображением бегемотов, созданный сайтом-генератором ИИ. Слева фотография бегемота, справа картина маслом зеленого бегемота в реке Нил.

Добавление дополнительных деталей к подсказке — например, «картина маслом зеленого гиппопотама эпохи Возрождения где-то вдоль реки Нил» (см. рисунок справа) — требует, чтобы модель использовала дополнительные уровни визуальных деталей, такие как стиль изображения., текстуру, цвет и расположение, а также правильно их сочетать.

Ответы на сложные подсказки могут быть ошибочными, особенно если подсказка сформулирована нечетко или сцена, которую она описывает, недостаточно хорошо представлена в обучающем наборе данных. Даже, казалось бы, простая еда может сбить с толку моделей.

Человеческие руки часто изображаются с отсутствующими или лишними пальцами или пропорциями, нарушающими законы физики. Поскольку руки обычно менее заметны на фотографиях, чем лица, для моделей искусственного интеллекта существуют меньшие наборы данных, на которых они могут оттачивать свою технику.

Изворотливая симметрия лица — особенно несоответствие цвета и формы глаз, зубов и ушей — еще один признак работы машины. А генераторы изображений борются с текстом, часто создавая несуществующие буквы или воображаемые слова.

Разработчики могут помочь моделям учиться на своих ошибках, уточняя наборы данных, на которых они учатся, или настраивая алгоритмы. Midjourney недавно был обновлен, чтобы улучшить способ генерации раздач.

Быстрые улучшения означают, что вскоре может стать невозможным отличить сгенерированное искусственным интеллектом изображение от реальной фотографии или картины.

Оригинал

P.S. Подпишись на канал ГлавИнформ — ГИБбон — о том как экономика, политика и технологии влияют на нашу жизнь.

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

Ключевые слова:
ИИ,
ChatGPT

444

Читайте на SMART-LAB:

Финансовые результаты Аэрофлота по РСБУ за 6 месяцев 2026 года

Аэрофлот опубликовал финансовые результаты по РСБУ за 2 квартал и 6 месяцев 2026 года. ✈️ Выручка во 2 квартале увеличилась на 3,3% год к году и...

Aeroflot

31 июля 2026, 14:33

Эмитент допустил дефолт: что делать инвесторам в таком случае?

Дефолт по облигациям не всегда означает полную потерю вложений. Даже если эмитент перестал платить купоны или не погасил долг, инвестор...

Т-Инвестиции

31 июля 2026, 17:42

Ключевые тезисы менеджмента Норникеля по итогам раскрытия финансовых результатов за 1П 2026 г.

Сегодня мы раскрыли финансовые результаты за 1П 2026 г. по МСФО. Все наши материалы доступны на сайте...

Nornickel

31 июля 2026, 17:44

МД Медикал операционные результаты 2 кв. 2026 г. - темпы роста ускорились, но появился долг

Компания МД Медикал (Мать и дитя) опубликовала операционные результаты за 2 квартал 2026 г. Выручка за 2 квартал выросла на 25,9% до 13 млрд руб....

Анатолий Полубояринов

01 августа 2026, 01:55

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Оглавление блога

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Андрей Колесников

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Оглавление блога

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Андрей Колесников