Model as Aesthetic: Image Generation Models Are Building Their Own 'Visual Dialects'

Full text · 原文 3,331 字

作者｜赵舟辰 邮箱｜zhaozhouchen@pingwest.com 最近在测试各种AI生图模型的时候，我们发现了一个现象：同样一个提示词，丢给不同的模型，出来的图片风格差异大到像是出自不同摄影流派。 Image-2生成的图就像我昨天随手拍的，但Nano Banana生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵，有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别，而是每个模型对"什么值得被看"有了不同的商业假设。 这就是"模型味"，也就是这种模型特点的底色——一种被量化、被大规模复制、正在成为下一代视觉内容底色的审美偏执。 1 Image-2：隐藏于真实世界的间谍 Image-2的核心逻辑很简单：放弃所有摄影技巧，只生成人眼真实看到的样子。 从商业角度看，这意味着最低的视觉加工成本。 下雨天的公交站不需要电影级打光——就是淅淅沥沥、萧瑟的样子。 吃了一半的外卖不需要精修——油腻、不怎么美观就是它的真实成本结构。 深夜的便利店黑漆漆一片，只有711亮着灯的诡异感。 垃圾桶周围天色微微沙尘，柏油马路有些年头的感觉。 城中村那种根本没有管制，小商小户们一起在小小地方无规则的拥挤的感觉非常真实。 这些"不完美"其实是成本最低的表达方式——因为它们就是现实本身。 阳台的晾衣杆虽然有点穿帮，但是那种黑云压城城欲摧的低气压感表达的很到位，那些现实的瑕疵、不规则感，别的模型可能视为缺陷要修正，Image-2却把握得很到位。为什么？因为这些不规则本身就是真实的证明，也是最省算力的渲染方案。它不会给你打光、调色、精心构图，它就是你的眼睛——你瞥到什么，它就生成什么。 这就是Image-2的商业密码：看它的输出，你的第一反应永远是"这好像是我昨天看过的"，而不是"这是AI生的"。它成功地把自己隐没在了日常生活里，成为最隐形的摄像机。对于需要大量真实素材的产品（比如Adobe的设计工具），这种"不被认出来"反而是最大的价值——用户不需要二次加工，直接可用。 1 Nano Banana2：楚门世界的艺术总监 Nano的逻辑完全相反——把现实变成一个被精心摆拍的世界，让每一个物体都配得上被凝视和转化。 同样是垃圾堆，Image-2给你的是真实的脏乱臭味，Nano给你的是一个艺术布景。 一杯水在Image-2里是一杯普通的水，在Nano里就是摆在这里要拍轻松闲适氛围的广告道具。 半个西红柿不是随便切的——二十精挑万选、打了面光、喷了水、特意固定了位置。 一块泥巴也是，有人找了平整的土地，喷了点水，团了一把泥巴，塑了塑形，摆到正当间，调整了构图才拍的。 这个刚起床的卧室根本毫无睡了一夜的杂乱感，而是感觉这是一个卧室家居用品的广告拍摄现场 这几张塑料拖鞋，生锈的铁钉，洗手台上的肥皂，都有一种精心的摆拍感 这不是无用功。Nano Banana的核心商业假设是：如果要大规模生成内容，不如直接生成"已经被设计过的现实"。对Google的Cosmic这样的web端产品来说，这意味着素材可以直接用，无需二次打磨。售楼处的宣传图就该这样——精致、无暇、充满了"生活在这里很舒服"的心理暗示。这是一种更直接的商业转化逻辑。 Nano Banana 的世界观很清晰：本该自然无序的一切，都被调教得更适合被观看、被欣赏、被购买。这是一个过度设计的乌托邦，也是互联网产品想要呈现给用户的那个理想世界。 1 豆包/即梦：不太全能的情感阐述高手 字节系的这两个模型遇到了一个典型的商业难题：把大部分算力投给了人物情绪和面部特征，其他维度的成本控制就显得很吃力。 优势很明显。望着窗外的女孩那张，舒适和惬意表达得精准。 流浪猫那张，把可怜无助、还有点惧怕人而保持一点攻击性的感觉表达得很精确。这种对人物细微情绪的洞察力在竞品中很难复现。对于需要"打动人"的内容场景（比如短视频封面、社交媒体素材），这种能力是真正的稀缺资源。 但短板也很直白。色调比较浓重，暖调和冷调十分失衡。最能暴露问题的是光影处理——光线要么极度强烈，要么几乎没有光影。影子一多了，豆包就干脆只精心生成有光线的地方。在生成智能手机、旧书店角落、黑咖啡这些图片中，这个成本分配的不均衡表现得最突出。 桌面橘子这张图片的背景处理问题更严重。纵深感表达不好，有一种背景要翻上来的感觉。最极端的是智能手机那一张，背景直接变成大白板——这样手机这种狭窄的光影才能比较不费算力地生成。还有个有意思的现象：豆包过于爱渲染"氛围"，有时会按照自己对"氛围"的理解去改写你的需求，而不是真正听你的。 这其实反映了一个更大的问题：当模型在某个维度投入过多，就会被迫在其他维度做出妥协。字节的选择是用"情感打动"来补偿"场景还原"的不足，这在内容创意场景可能有效，但在需要全方位精致度的场景就会显得单薄。 1 可灵：追求帧帧充满故事感的好莱坞导演 可灵作为短视频的主力生成工具，遵循的是完全不同的商业逻辑——每一帧都必须在讲故事。 所有的图都被放置在了一个已有的世界观或语境里，每一个画面都在暗示：接下来会发生什么。这种"预叙事"能力体现在细节里。正在系鞋带的男人，你一看就感觉他发现你在看他了。走廊尽头那张，透视感极强，感觉是高档酒店的短剧现场，你能想象有人会从那头走出来。地下停车场给人安静的诡异感，下一秒灯就会从远处一个个快速熄灭。 这种故事感体现在对摄影技巧的精准运用上。掉在地上的雨伞用侧逆光、死角做了黑暗虚化处理，像案发现场证物。后视镜里的眼睛，构图压迫感极强，直接聚焦在后视镜。空荡的地铁车厢调色真实到电影级别，有《黑客帝国》的感觉。 可灵的成本结构是：用光影、构图、虚化、调色等所有摄影语言服务于叙事，把静止画面转化成正在展开的故事。这对短视频、游戏角色、广告创意这类"需要视觉冲击"的场景是理想的。但如果你只是想要一张干净的产品图，可灵会强行给你加上故事性——这种"过度设计"在某些场景反而成了负担。 使用越多，越会发现今天各个模型都有了它自己的一套视觉“方言”，而这些视觉语言都是审美的直接反映，模型逐渐在审美品味上直接区分开来。 而除了各种数据和训练方法带来的审美不同，选择不同模型时，还有不同的成本考量。 需要真实/电影级素材用Image-2——现实感强，瑕疵本身就是素材，省去了后期精修的成本。需要3A游戏场景或房屋中介宣传图用Nano Banana 2——那种真实华丽但又一眼看出不是现实的感觉，正好适配售楼处"理想化呈现"的成本结构。需要表达人物情绪和面部特征用豆包或即梦——这两个模型在"情感转化"上的成本最低。需要游戏人物或短视频素材用可灵——叙事感和视觉冲击力的ROI最高。 这都会使得接下来AI生图的竞争从"谁更强"转向"谁的味儿更对口"。而且，这种视觉倾向和偏好在使用中会再被加强，形成一个个风格的闭环。最终，最多用户的几个主要的模型很可能会一起改变人们对于审美的最根本理解。 “特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。 Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

Site key	ifeng
Policy area	人工智能
Category	report
CMS	媒体报道

Model as Aesthetic: Image Generation Models Are Building Their Own 'Visual Dialects'

模型即审美：生图模型们正建起自己的“视觉方言”