low 2026-04-22

ChatGPT Images 2.0 Suddenly Released, Significant Improvement in Layout and Design Capabilities

ChatGPT Images 2.0突然发布，排版设计能力巨大提升

观察者网 guancha

This article reports on OpenAI's launch of ChatGPT Images 2.0, highlighting its enhanced text rendering and image generation fidelity, including support for Chinese characters, and discusses implications for AI-generated content authenticity.

Document Text 1,836 characters

（文/万肇生编辑/张广凯） 当地时间4月21日，美国人工智能公司OpenAI对外正式推出ChatGPT Images 2.0模型，这是其ChatGPT平台内图像生成功能的最新一次升级。 该模型旨在提升对图像生成指令的“听话”程度、细节保真度以及文本渲染质量，尤其在处理图像中的文字元素时表现出明显进步。 ChatGPT Images 2.0发布，主打文字处理能力。 根据OpenAI的官方发布，本次更新的模型为所有ChatGPT用户提供基础访问权限，经观察者网实测，大致每天可以生成5张左右图片。而付费用户可则使用增强的“图片思考”模式，后者整合了推理能力、多输出生成以及网络搜索工具等功能。 无论是OpenAI官方还是用户评测，均认为ChatGPT Images 2.0的最大改进，在于图像中文字的生成质量。长期以来，扩散模型在处理小尺寸文本时面临挑战，因为文字像素在整个图像中占比极小，模型往往优先重建更大区域，导致拼写错误或字体不自然。 OpenAI表示，Images 2.0实现了“前所未有的特异性和保真度”，能够有效概念化复杂图像，并忠实呈现用户指定的细节，包括小文本、图标、用户界面元素、密集构图以及细微的风格约束，输出分辨率最高可达2K。 科技媒体Tech Crunch实际测试则印证了这一进步。平台使用提示生成一份墨西哥餐厅菜单，结果显示菜单上的菜品名称和价格基本合理，整体效果足以在真实餐厅中使用，难以看出是AI生成。与之形成对比的是，该媒体两年前使用另一模型生成的类似菜单，其中则出现了“多种明显拼写错误。 生成具有风格化的菜单，字体清晰不粘连图自TechCrunch 除了英文文本，模型在非拉丁语系文字处理上也有提升，支持包括中文在内的多种语言的准确渲染。这使得它在生成包含多语言元素的图像时更具实用性。 对此，观察者网通过免费生成功能的简单指令，让其制作一份会员服务“观察员”的宣传海报。其中，海报内汉字清晰可见，极少有以往AI图像生成时出现的笔划粘连情况，而且海报布局合理，完成度较高，抽卡方面较以往图片模型显著友好。 但美中不足的是，由于未指明具体文案，除了“观察员”外，会员的功能权益、定价、LOGO等文案内容有一定程度的出入。不过，这不妨碍该海报在经过后期美术简单处理后，得以实现产能意义上的快速爬坡。 ChatGPT生成的“观察员”海报，如果去掉有出入的文案部分，整体设计完成度已达到较高水平。 另一方面，图片思考模式还引入了推理能力，可以让模型进行网络搜索以获取最新信息，并进行自我检查以优化输出。这些能力意味着图像生成速度，远不如直接与ChatGPT对话那么快，但实测中生成像多格漫画这样复杂的内容时，该模型仍然只需几分钟。 需要注意的是，在AI图像生成领域，扩散模型和自回归模型是两种主流的技术路线，如今前沿模型通常将两者结合，而OpenAI未解释该模型底层架构属于哪种。不过，随着OpenAI推动图像生成技术的进步，势必会进一步增加人类识别AI生成内容的难度，引发对虚假内容的担忧。 美国财经媒体《商业内幕》（Business Insider）就认为，此类模型具备生成逼真图像的能力，很容易被用于创建具备误导性的图片或伪造照片。而模型的“思考”模式接入网络搜索，虽有助于事实核查，但其基于截止2025年12月的数据库，随着时间可能放大生成内容的时效性风险。 正如上文生成的“观察员”海报一样，文案内容与真实权益出入较大，这不得不让人担心，AI在生成新闻配图、产品宣传或社交媒体内容时，若任由其自主生成文案、且缺乏明确的AI生成标记，可能将导致错误信息传播的情况。 历史经验显示，类似的模型工具曾被不法之人用于创建深度伪造内容，因此平台责任与用户自律一样重要。但目前，OpenAI还未公布针对Images 2.0的特定新安全机制细节。此外，OpenAI也没有透露训练数据来源，一旦模型生成与现有人类作品高度相似的图像时，也可能引发版权之争。 但抛去上述风险，从技术向善的角度出发，ChatGPT Images 2.0仍然不失为一次务实的迭代升级。它在文本渲染、指令遵循和复杂构图方面的改进，使AI图像生成更接近日常实用水平，而非仅停留在概念演示。经过几轮简单的测试结果也能看出，该模型在简单商业场景中已能产生可用成果，这本身就是对过去两年技术瓶颈的突破。

Topics

artificial intelligence image generation OpenAI

Metadata

Publisher	观察者网
Site	guancha
Date	2026-04-22
Category	report
Policy Area	人工智能
CMS Category	媒体报道

Verification

Original URL
https://www.guancha.cn/economy/2026_04_22_814501.shtml

Compare with archived HTML