11 июля 2023, 16:01

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людей

Как работают генераторы изображений ИИ. Некоторые становятся достаточно хорошими, чтобы обмануть людейСегодня

Созданное ИИ изображение ареста Дональда Трампа в окружении полиции в черной форме.

Шквал изображений, созданных искусственным интеллектом (ИИ), кажется продуктом совершенно современного инструмента. На самом деле, компьютеры десятилетиями стояли у мольберта.

В начале 1970-х художник Гарольд Коэн научил рисовать, используя раннюю систему искусственного интеллекта. «Аарон» мог поручить роботу рисовать черно-белые фигуры на бумаге; в течение десяти лет Коэн научил Аарона рисовать человеческие фигуры.

Сегодня модели «генеративного ИИ» наносят кисть на виртуальную бумагу: общедоступные приложения, такие как Midjourney и dall-e от OpenAI, создают изображения за считанные секунды на основе текстовых подсказок.

Конечные продукты часто обманывают людей. В марте сгенерированные искусственным интеллектом изображения Дональда Трампа в наручниках полиции стали вирусными в сети. И генераторы изображений быстро совершенствуются.

Как они работают и как совершенствуют свое мастерство?

Модели генеративного искусственного интеллекта — это тип глубокого обучения, программная техника, в которой используются слои взаимосвязанных узлов, которые приблизительно имитируют структуру человеческого мозга.

Модели, лежащие в основе генераторов изображений, обучаются на огромных наборах данных:

laion-5b, крупнейший из общедоступных, содержит 5,85 млрд помеченных изображений.

Наборы данных часто берутся из Интернета, в том числе из социальных сетей, библиотек стоковых фотографий и торговых сайтов.

Самые продвинутые генераторы изображений обычно используют тип генеративного ИИ, известный как диффузионная модель.

Они добавляют искажающий визуальный «шум» к изображениям в наборе данных, делая их похожими на аналоговое телевидение, которое все еще прерывается статическими помехами, до тех пор, пока изображения полностью не перекрываются. Узнав, как устранить беспорядок, модель может создать изображение, похожее на оригинал.

По мере того, как он становится лучше в распознавании групп пикселей, соответствующих определенным визуальным понятиям, он начинает сжимать, классифицировать и хранить эти знания в математическом кармане кода, известном как «скрытое пространство».

Допустим, вы просите приложение-генератор создать изображение бегемота. Модель, которая узнала, какие типы расположения пикселей соответствуют слову «бегемот» (см. рисунок слева), должна иметь возможность делать выборки из скрытого пространства для создания реалистичного изображения млекопитающего.

Диптих с изображением бегемотов, созданный сайтом-генератором ИИ. Слева фотография бегемота, справа картина маслом зеленого бегемота в реке Нил.

Добавление дополнительных деталей к подсказке — например, «картина маслом зеленого гиппопотама эпохи Возрождения где-то вдоль реки Нил» (см. рисунок справа) — требует, чтобы модель использовала дополнительные уровни визуальных деталей, такие как стиль изображения., текстуру, цвет и расположение, а также правильно их сочетать.

Ответы на сложные подсказки могут быть ошибочными, особенно если подсказка сформулирована нечетко или сцена, которую она описывает, недостаточно хорошо представлена в обучающем наборе данных. Даже, казалось бы, простая еда может сбить с толку моделей.

Человеческие руки часто изображаются с отсутствующими или лишними пальцами или пропорциями, нарушающими законы физики. Поскольку руки обычно менее заметны на фотографиях, чем лица, для моделей искусственного интеллекта существуют меньшие наборы данных, на которых они могут оттачивать свою технику.

Изворотливая симметрия лица — особенно несоответствие цвета и формы глаз, зубов и ушей — еще один признак работы машины. А генераторы изображений борются с текстом, часто создавая несуществующие буквы или воображаемые слова.

Разработчики могут помочь моделям учиться на своих ошибках, уточняя наборы данных, на которых они учатся, или настраивая алгоритмы. Midjourney недавно был обновлен, чтобы улучшить способ генерации раздач.

Быстрые улучшения означают, что вскоре может стать невозможным отличить сгенерированное искусственным интеллектом изображение от реальной фотографии или картины.

Оригинал

P.S. Подпишись на канал ГлавИнформ — ГИБбон — о том как экономика, политика и технологии влияют на нашу жизнь.

ИИ ChatGPT

Андрей Колесников

Москва

296

27 636

с 24 апреля 2012

0 Комментариев

Читайте на SMART-LAB:

Скоро поговорим в эфире Радио РБК

Друзья, привет! 💬 До публикации финансовых результатов по МСФО за 2025 год остается несколько недель, поэтому мы продолжаем вести открытую коммуникацию с рынком. ⚡️ Скоро наш финансовый директор...

Самолет

26.03.2026

Где деньги в коммерческой недвижимости в 2026: интервью с главой Accent Мариной Харитоновой

Текущий макроэкономический фон и сохранение высокой ключевой ставки диктуют новые правила игры для сегмента коммерческой недвижимости. Настал период проверки: операционки — на эффективность, а...

Accent

27.03.2026

🚀 SOFL впервые получил кредитный рейтинг категории «А»

Дорогие инвесторы, у нас отличные новости! Агентство АКРА присвоило Софтлайн высокий рейтинг кредитоспособности: A- со стабильным прогнозом: https://www.acra-ratings.ru/press-releases/6705/...

Softline

26.03.2026

Самый большой "перетряс" моего портфеля за последние годы. Синтетический валютный бонд с доходностью 13% годовых

Доброго дня, дорогие читатели. Сегодня я все утро совершал сделки. Вероятно, это даже самый большой перетряс портфеля за последние годы. Ротация портфеля затронула почти все позиции в нем. Я не...