Компания представила обновлённую модель ChatGPT Images 2.0, которая существенно улучшила качество генерации изображений. Одним из главных прорывов стало умение корректно отображать текст внутри картинок — проблема, с которой ранее сталкивались почти все подобные системы, сообщает bitbetnews.com со ссылкой techcrunch.com.
Ещё несколько лет назад генераторы изображений часто допускали ошибки в надписях, создавая несуществующие слова или искажая буквы. Теперь ситуация изменилась: новая модель способна создавать изображения с текстом, который выглядит естественно и читаемо.
Развитие технологий достигло уровня, когда отличить результат работы ИИ от реального дизайна становится всё сложнее.
Почему раньше ИИ плохо писал текст
Ранее большинство генераторов изображений работали на основе диффузионных моделей. Они создавали картинку, постепенно восстанавливая её из шума, что делало работу с текстом крайне сложной задачей.

Проблема заключалась в том, что текст занимает лишь небольшую часть изображения, и модель не уделяла ему достаточного внимания. В результате появлялись странные слова и искажённые символы.
«Текст на изображении — это крошечная часть данных, поэтому модель обучается хуже распознавать такие детали», — объяснял эксперт в области ИИ.
С развитием технологий исследователи начали применять новые подходы, которые позволили улучшить качество генерации.
Что умеет новая модель Images 2.0
Обновлённая версия получила ряд важных возможностей, которые делают её более универсальной. Теперь система лучше понимает сложные запросы и способна генерировать детализированные изображения с точным соблюдением инструкций.
Основные возможности модели:
- корректное отображение текста на изображениях
- создание нескольких изображений по одному запросу
- генерация маркетинговых материалов разных форматов
- поддержка сложных композиций и интерфейсов
- улучшенная работа с разными языками
Эти функции делают модель полезной не только для развлечений, но и для профессионального использования.
Улучшенная работа с языками и деталями
Особое внимание разработчики уделили поддержке различных языков. Теперь модель лучше справляется с текстами на языках, использующих нелатинскую письменность.
Это открывает новые возможности для глобального применения технологии. При этом модель сохраняет высокий уровень детализации даже в сложных сценах, где присутствует много мелких элементов.
«Теперь ИИ способен не только придумать концепцию, но и точно реализовать её до мелочей», — отмечают специалисты.
Ограничения и особенности работы
Несмотря на значительные улучшения, у модели остаются определённые ограничения. Например, её знания ограничены определённым временным периодом, что может влиять на актуальность информации в некоторых запросах.
Также генерация сложных изображений требует больше времени, чем простые текстовые ответы. Однако даже многоэлементные сцены создаются всего за несколько минут, что является хорошим результатом.
Иногда система всё ещё может допускать неточности, особенно в сложных или нестандартных задачах.

Доступность и дальнейшее развитие
Новая версия стала доступна пользователям, включая тех, кто использует различные инструменты на базе ChatGPT. При этом расширенные функции доступны в платных тарифах.
| Возможность | Доступность |
|---|---|
| Генерация изображений | Да |
| Продвинутые функции | Платно |
| API для разработчиков | Да |
| Поддержка разных форматов | Да |
Обновление также включает доступ к API, что позволяет разработчикам интегрировать возможности модели в собственные продукты.
В итоге генерация изображений ИИ выходит на новый уровень: модели становятся точнее, быстрее и функциональнее. Новая версия демонстрирует заметный прогресс и открывает дополнительные возможности для бизнеса, дизайна и повседневного использования технологий искусственного интеллекта.
Ранее мы сообщали, что новый iPhone 17 Pro Max возглавил рынок перепродаж спустя несколько месяцев после релиза.
