AI实战 2026/06/25

ERNIE vs Z-Image 生图对比：文字与非文字场景的实测

同 prompt、同 seed,4 个场景实测 Z-Image-Turbo vs ERNIE-Image-Turbo。文字密集选 ERNIE,纯场景选 Z——选型一句话,逐项拆给你看。

ERNIE vs Z-Image 生图对比：文字与非文字场景的实测

上一篇文章《ComfyUI + Z-Image-Turbo + AMD ROCm 完整安装指南》的配图你看过了——里面那些奇怪的字（“开源 6B 签数 DiT”、“PyTorIs”、重复出现的”耗时 25”）不是 prompt 写得不好，是 Z-Image-Turbo 在中文+英文+数字混排时的真实表现。这篇文章把同一段 prompt 分别喂给 Z 和 ERNIE-Image-Turbo，一张张对比给你看，顺便讲讲选型建议。

测试时间：2026年6月。硬件：AMD Radeon RX 7900 XTX 24GB + ROCm 7.2.3 + ComfyUI 0.22.0。两边的 sampler、steps、cfg、seed 都对齐了。

一、先说结论

维度	Z-Image-Turbo	ERNIE-Image-Turbo
纯场景（无文字）	略胜（细节更电影感）	略弱（更偏漫画/插画）
少量文字（标题+1 行）	不分伯仲	不分伯仲
大量中文+英文混排	经常错字、漏字、错位	准确
数字+单位（“16GB”、“832×1216”）	“PyTorch” → “PyTorIs”	准确
速度（1024×1024, 8 步）	~10 秒	~25 秒
VRAM 占用	~7-8 GB	~14-18 GB

选型一句话：

文字密集场景（海报、信息图、教程卡、PPT 配图、小红书卡片、品牌物料）→ ERNIE
纯画面（场景、人物、概念图、3D 视觉）→ Z，快一倍

下面逐项拆开看。

二、4 个场景实测

每个场景用完全相同的 prompt、相同的 seed（不同 model 的 seed 等价性不严格，但视觉差异主要来自模型本身），相同的 1024×1024 方形尺寸对比。

1. 纯场景（无任何文字）

Prompt：

a cyberpunk samurai standing on a rooftop at sunset, dramatic city skyline below, neon reflections on wet surface, cinematic lighting, high detail, 8k render

Z-Image-Turbo： Z 赛博武士

ERNIE-Image-Turbo： ERNIE 赛博武士

观察：

Z 偏电影写实风——武士背对镜头、装甲铆钉和雨水细节、紫色霓虹天际线
ERNIE 偏漫画插画风——武士正面全身、传统兜+铠甲、抽出太刀的城市夜景
文件大小差异明显：Z 1.15MB，ERNIE 1.78MB——ERNIE 渲染的细节更密集（背景霓虹招牌、屋檐装饰都画出来了）

结论：纯场景下两者风格走向不同，Z 偏写实、ERNIE 偏插画，谈不上谁碾压谁，但 Z 速度快 2.5 倍，在批量出场景图时省时间。

2. 少量文字（英文标题 + 中文小字）

Prompt：

minimal movie poster style, big bold black text ‘SUMMER SALE’ at the top, smaller red text ‘限时 7 天’ below, retro travel poster aesthetic, simple sun and palm tree silhouette, beige background

Z-Image-Turbo： Z 海报

ERNIE-Image-Turbo： ERNIE 海报

观察：

两个都对——“SUMMER SALE” 拼写都对、“限时 7 天” 三个汉字都对
Z 把 “SUMMER SALE” 拆成两行（一行排不下），ERNIE 排成一行
Z 用粗黑无衬线字体，ERNIE 用复古衬线（更”海报感”）
棕榈树、太阳、纸张做旧等装饰元素 ERNIE 更丰富

结论：文字量少的时候 Z 也能跑对。这次两个模型都没出错。但 Z 的字体选择、布局灵活性弱于 ERNIE——Z 是”刚好能用”，ERNIE 是”有设计感”。

3. 大量文字（5 行带中文描述的知识卡）

Prompt：

notion style knowledge card on cream background, 5 stacked info rows, each with icon and Chinese text: 1) robot icon ‘开源 6B 参数 DiT’ 2) clock icon ‘25 秒出图’ 3) brush icon ‘中英文双优’ 4) chip icon ‘16GB 显存’ 5) rocket icon ‘ROCm 7.2 / PyTorch 2.13’

Z-Image-Turbo： Z 知识卡

ERNIE-Image-Turbo： ERNIE 知识卡

观察（Z 出错清单）：

第 1 行 “开源 6B 签数 DiT”——“参数” 的 “参” 渲染成 “签”
第 5 行 “ROCm 7.2 / PyTorIs 2.13”——“PyTorch” 的 “ch” 渲染成 “Is”（视觉上 h → l）
Z 的图标是简笔线稿风格（机器人的手没了、火箭没火焰）
ERNIE 5 行全部正确：开源 6B 参数 DiT / 25 秒出图 / 中英文双优 / 16GB 显存 / ROCm 7.2 / PyTorch 2.13
ERNIE 的图标有立体细节（机器人的天线和头、芯片的散热鳍片、火箭的火焰和尾迹）

结论：文字量上去之后 Z 开始翻车。典型的”形近字混淆”是 Z 的通病——训练数据里中文相似字（参/签/答/管、c/l/o/O/0）区分度不够，模型在跨字形+跨语种混排时容易模糊。

4. 文字+数字混排（规格表）

Prompt：

clean technical infographic on white background, 4 spec rows in monospace font: ‘显存 16GB’ ‘分辨率 832x1216’ ‘耗时 25 秒’ ‘体积 15 GB’, each with a small relevant icon, header in Chinese ‘硬件要求’

Z-Image-Turbo： Z 规格表

ERNIE-Image-Turbo： ERNIE 规格表

观察（Z 又翻车）：

Z 把”耗时 25 秒”这一行重复渲染了两次（“耗时 25” + “耗时 5 秒”），且第一次漏掉了”秒”字
4 行规格变 5 行，结构乱了
Z 的图标是简笔线稿（无填色）
ERNIE 4 行整齐正确：显存 16GB / 分辨率 832x1216 / 耗时 25 秒 / 体积 15 GB
ERNIE 自动用表格线分隔行，布局更接近真实规格表
ERNIE 图标有彩色背景（齿轮/齿轮/铅笔/计算器 emoji-style）

结论：文字+数字混排是 Z 的硬伤区域。ERNIE 拿这种 prompt 几乎零压力。

三、为什么会这样？

简短版技术解释：

Z-Image-Turbo 的训练语料以英文为主，中文 token 占比少。CLIP 编码器是 Qwen-3-4B（4B 参数），对中文长 prompt 的语义捕捉弱于对英文的。Diffusion 主体在去噪时，文本条件不充分就会在”形近字”和”重复行”上出问题。
ERNIE-Image-Turbo 是百度原生双语 DiT。Ministral 3 3B 文本编码器对中文的 tokenization 更紧凑（同样长度的中文 prompt 占 token 数更少 → 语义密度更高），加上训练语料原生双语 + 大量中文图表/海报数据，文字渲染在 DiT 的”去噪到目标像素”那一步就有了足够强的文本条件。
速度差异：ERNIE 主模型 15GB、DiT hidden 4096、KV cache 都比 Z 大，1024×1024 也超过 Z 1024² 的 native 范围（ERNIE 主要训 832×1216），所以慢。

部署 ERNIE 的具体步骤（模型下载、mistral_common 依赖、flat workflow、踩坑）见姐妹篇《ComfyUI + Z-Image-Turbo + AMD ROCm 完整安装指南》的附录（待补全）。

四、选型建议

根据上面的实测，我的实际工作流：

场景	用什么
节日海报 / 信息图 / PPT 配图 / 教程卡片	ERNIE
小红书图文 / 公众号头图 / 品牌物料	ERNIE
概念场景 / 人物 / 风景 / 抽象画	Z（快一倍）
视频帧 / 训练数据合成 / 批量出图	Z（VRAM 省一半）
字幕 / 水印 / 数据可视化	ERNIE
混合：场景 + 字幕	优先 ERNIE，字幕别让 Z 渲

本文档更新时间：2026年6月25日