Еще два года назад попросить ChatGPT нарисовать меню мексиканского ресторана означало получить что-то со блюдами вроде «бурто», «маргатас» и «енчуита». AI-генераторы изображений традиционно неловко обращались с текстом — и это была их самая заметная слабость. 21 апреля 2026 года OpenAI представил ChatGPT Images 2.0, и кажется, что этой проблемы больше нет.
Почему AI-генераторы раньше не умели писать текст

Чтобы понять, что изменилось, стоит знать причину старой проблемы. Большинство предыдущих моделей генерации изображений — включая DALL-E — работали на диффузионных моделях. Принцип их работы: реконструировать изображение из «шума», постепенно восстанавливая структуру.
Текст на изображении занимает незначительную часть пикселей. Алгоритм обучался на общих закономерностях — и просто не уделял буквам достаточно внимания. Результат: «burrto» вместо «burrito», кириллические завитки вместо реальных слов, псевдоиероглифы вместо японских символов.
Исследователи давно искали альтернативы. Авторегрессионные модели — те, что «предсказывают» изображение постепенно, похожие по принципу на большие языковые модели — показывали лучшие результаты с текстом. OpenAI не раскрыл, какая именно архитектура лежит в основе Images 2.0, но результаты говорят сами за себя.
Что умеет ChatGPT Images 2.0 — полный список возможностей
Текст на изображениях — главная новинка
Images 2.0 генерирует читаемый, правильно написанный текст даже в сложных композициях: меню ресторанов, обложки журналов, рекламные баннеры, UI-макеты, инфографику, учебные диаграммы. Шрифты, иерархия, выравнивание — всё это модель воспроизводит с точностью, которую раньше можно было получить только от дизайнера.
[H3] «Мышление» и самопроверка
Модель получила так называемые «thinking capabilities» — возможности, которые раньше были прерогативой текстовых моделей. Images 2.0 может:
- Искать актуальную информацию в интернете перед генерацией
- Генерировать несколько изображений из одного промпта
- Проверять собственные результаты и исправлять ошибки
Это объясняет, почему генерация сложных объектов занимает несколько минут, а не секунд. Но результат — маркетинговый баннер или многопанельный комикс — может быть готов к использованию сразу.
Последовательные серии изображений
Images 2.0 может генерировать до восьми связанных изображений из одного промпта с сохранением «character and object continuity» — то есть персонажи, объекты и стиль остаются одинаковыми от кадра к кадру. Это открывает возможности для:
- Сторибордов и комиксов
- Пошаговых инструкций с изображениями
- Серий рекламных материалов в едином стиле
- Учебного контента с последовательными иллюстрациями
Мультиязычная поддержка
Одно из самых важных изменений для нелатинских языков. Images 2.0 теперь корректно воспроизводит текст на японском, корейском, китайском, хинди и бенгальском — не просто перевод, а нативно встроенный текст в дизайн. Это особенно важно для рынков Азии, где латинский алфавит не является стандартом.
Гибкость форматов и разрешение
Модель поддерживает соотношения сторон от 3:1 (широкий баннер) до 1:3 (вертикальный формат для смартфонов), а также генерацию в разрешении до 2K. Это делает её пригодной для реального производства, а не только для демонстраций.
Сравнение: Images 2.0 против предыдущих генераторов

| Возможность | DALL-E 3 (2024) | Images 2.0 (2026) |
|---|---|---|
| Текст на изображении | ❌ Часто нечитаемый | ✅ Читаемый, точный |
| Генерация серий | ❌ Один кадр | ✅ До 8 связанных кадров |
| Поиск в интернете | ❌ Нет | ✅ Есть |
| Нелатинские языки | ⚠️ Частично | ✅ JP, KR, CN, HI, BN |
| Разрешение | До 1024px | До 2K |
| Форматные соотношения | Ограниченные | От 3:1 до 1:3 |
| Самопроверка | ❌ Нет | ✅ Есть |
Для кого это реально полезно

ChatGPT Images 2.0 — это не только инструмент для художников и дизайнеров. Благодаря решению проблемы текста и внедрению «мышления» модель становится практическим инструментом для гораздо более широкой аудитории.
Маркетологи и контент-менеджеры могут генерировать готовые к публикации баннеры, обложки для соцсетей и рекламные материалы без привлечения дизайнера для правки текста.
Преподаватели получают возможность создавать учебные диаграммы, инфографику и иллюстрированные пошаговые инструкции с корректными подписями.
Разработчики через API (gpt-image-2) могут автоматизировать генерацию изображений с текстом для своих продуктов — меню, карточек товаров, UI-макетов.
Блогеры и медиа — включая тех, кто пишет о технологиях, гаджетах и искусственном интеллекте — могут быстро создавать уникальные иллюстрации к статьям.
Ограничения и чего модель ещё не умеет
OpenAI честно указывает на текущие слабости Images 2.0:
- Проблемы с кадрированием при сложных композициях
- «Галлюцинации» — модель может придумывать детали
- Сложные графики и диаграммы с точными данными всё ещё требуют доработки
- Очень плотные текстуры и надстрочные детали могут получиться с артефактами
- Точное редактирование существующих изображений пока ограничено
Кроме того, база знаний модели обрезана декабрём 2025 года. Это означает: если генерация требует актуальных данных (например, логотип новой компании или отображение недавнего события), результат может быть неточным.
Как получить доступ и сколько это стоит
Images 2.0 доступен с 21 апреля 2026 через вкладку «Images» в ChatGPT. Структура доступа:
- Бесплатные пользователи — базовый доступ к Images 2.0
- Платные пользователи (ChatGPT Plus, Pro, Business) — расширенные возможности, включая режим «Thinking» и более высокое разрешение
- API — модель доступна как gpt-image-2, цена зависит от качества и разрешения вывода
- Codex — поддержка Images 2.0 встроена и в инструмент для программистов
Что это означает для конкурентов

OpenAI — не единственная компания, которая решает проблему текста в AI-изображениях. В феврале 2026 года Google выпустил Gemini 3 Pro Image с аналогичными возможностями для плотного текста. Но, по оценкам ранних тестировщиков, Images 2.0 превосходит конкурента в воспроизведении UI-элементов, скриншотов и серий связанных изображений.
Midjourney и Stable Diffusion пока остаются сильнее в художественной генерации и стилизованных изображениях. Но Images 2.0 явно нацеливается на другой сегмент — практическое производство контента, а не цифровое искусство.
Кратко: главное о ChatGPT Images 2.0
- Главная новинка: читаемый, точный текст на изображениях любой сложности
- Thinking mode: поиск в сети, самопроверка, серии до 8 изображений
- Языки: японский, корейский, китайский, хинди, бенгальский
- Форматы: от 3:1 до 1:3, до 2K разрешения
- Доступ: бесплатно через ChatGPT; расширенные функции — для платных пользователей; API — gpt-image-2
- База знаний: декабрь 2025 года
Статья подготовлена командой TechVisor — практического IT-медиа для людей.




