ERNIE vs Z-Image 生图对比:文字与非文字场景的实测
同 prompt、同 seed,4 个场景实测 Z-Image-Turbo vs ERNIE-Image-Turbo。文字密集选 ERNIE,纯场景选 Z——选型一句话,逐项拆给你看。
ERNIE vs Z-Image 生图对比:文字与非文字场景的实测
上一篇文章《ComfyUI + Z-Image-Turbo + AMD ROCm 完整安装指南》的配图你看过了——里面那些奇怪的字(“开源 6B 签数 DiT”、“PyTorIs”、重复出现的”耗时 25”)不是 prompt 写得不好,是 Z-Image-Turbo 在中文+英文+数字混排时的真实表现。这篇文章把同一段 prompt 分别喂给 Z 和 ERNIE-Image-Turbo,一张张对比给你看,顺便讲讲选型建议。
测试时间:2026年6月。硬件:AMD Radeon RX 7900 XTX 24GB + ROCm 7.2.3 + ComfyUI 0.22.0。两边的 sampler、steps、cfg、seed 都对齐了。
一、先说结论
| 维度 | Z-Image-Turbo | ERNIE-Image-Turbo |
|---|---|---|
| 纯场景(无文字) | 略胜(细节更电影感) | 略弱(更偏漫画/插画) |
| 少量文字(标题+1 行) | 不分伯仲 | 不分伯仲 |
| 大量中文+英文混排 | 经常错字、漏字、错位 | 准确 |
| 数字+单位(“16GB”、“832×1216”) | “PyTorch” → “PyTorIs” | 准确 |
| 速度(1024×1024, 8 步) | ~10 秒 | ~25 秒 |
| VRAM 占用 | ~7-8 GB | ~14-18 GB |
选型一句话:
- 文字密集场景(海报、信息图、教程卡、PPT 配图、小红书卡片、品牌物料)→ ERNIE
- 纯画面(场景、人物、概念图、3D 视觉)→ Z,快一倍
下面逐项拆开看。
二、4 个场景实测
每个场景用完全相同的 prompt、相同的 seed(不同 model 的 seed 等价性不严格,但视觉差异主要来自模型本身),相同的 1024×1024 方形尺寸对比。
1. 纯场景(无任何文字)
Prompt:
a cyberpunk samurai standing on a rooftop at sunset, dramatic city skyline below, neon reflections on wet surface, cinematic lighting, high detail, 8k render
Z-Image-Turbo:

ERNIE-Image-Turbo:

观察:
- Z 偏电影写实风——武士背对镜头、装甲铆钉和雨水细节、紫色霓虹天际线
- ERNIE 偏漫画插画风——武士正面全身、传统兜+铠甲、抽出太刀的城市夜景
- 文件大小差异明显:Z 1.15MB,ERNIE 1.78MB——ERNIE 渲染的细节更密集(背景霓虹招牌、屋檐装饰都画出来了)
结论:纯场景下两者风格走向不同,Z 偏写实、ERNIE 偏插画,谈不上谁碾压谁,但 Z 速度快 2.5 倍,在批量出场景图时省时间。
2. 少量文字(英文标题 + 中文小字)
Prompt:
minimal movie poster style, big bold black text ‘SUMMER SALE’ at the top, smaller red text ‘限时 7 天’ below, retro travel poster aesthetic, simple sun and palm tree silhouette, beige background
Z-Image-Turbo:

ERNIE-Image-Turbo:

观察:
- 两个都对——“SUMMER SALE” 拼写都对、“限时 7 天” 三个汉字都对
- Z 把 “SUMMER SALE” 拆成两行(一行排不下),ERNIE 排成一行
- Z 用粗黑无衬线字体,ERNIE 用复古衬线(更”海报感”)
- 棕榈树、太阳、纸张做旧等装饰元素 ERNIE 更丰富
结论:文字量少的时候 Z 也能跑对。这次两个模型都没出错。但 Z 的字体选择、布局灵活性弱于 ERNIE——Z 是”刚好能用”,ERNIE 是”有设计感”。
3. 大量文字(5 行带中文描述的知识卡)
Prompt:
notion style knowledge card on cream background, 5 stacked info rows, each with icon and Chinese text: 1) robot icon ‘开源 6B 参数 DiT’ 2) clock icon ‘25 秒出图’ 3) brush icon ‘中英文双优’ 4) chip icon ‘16GB 显存’ 5) rocket icon ‘ROCm 7.2 / PyTorch 2.13’
Z-Image-Turbo:

ERNIE-Image-Turbo:

观察(Z 出错清单):
- 第 1 行 “开源 6B 签数 DiT”——“参数” 的 “参” 渲染成 “签”
- 第 5 行 “ROCm 7.2 / PyTorIs 2.13”——“PyTorch” 的 “ch” 渲染成 “Is”(视觉上 h → l)
- Z 的图标是简笔线稿风格(机器人的手没了、火箭没火焰)
- ERNIE 5 行全部正确:开源 6B 参数 DiT / 25 秒出图 / 中英文双优 / 16GB 显存 / ROCm 7.2 / PyTorch 2.13
- ERNIE 的图标有立体细节(机器人的天线和头、芯片的散热鳍片、火箭的火焰和尾迹)
结论:文字量上去之后 Z 开始翻车。典型的”形近字混淆”是 Z 的通病——训练数据里中文相似字(参/签/答/管、c/l/o/O/0)区分度不够,模型在跨字形+跨语种混排时容易模糊。
4. 文字+数字混排(规格表)
Prompt:
clean technical infographic on white background, 4 spec rows in monospace font: ‘显存 16GB’ ‘分辨率 832x1216’ ‘耗时 25 秒’ ‘体积 15 GB’, each with a small relevant icon, header in Chinese ‘硬件要求’
Z-Image-Turbo:

ERNIE-Image-Turbo:

观察(Z 又翻车):
- Z 把”耗时 25 秒”这一行重复渲染了两次(“耗时 25” + “耗时 5 秒”),且第一次漏掉了”秒”字
- 4 行规格变 5 行,结构乱了
- Z 的图标是简笔线稿(无填色)
- ERNIE 4 行整齐正确:显存 16GB / 分辨率 832x1216 / 耗时 25 秒 / 体积 15 GB
- ERNIE 自动用表格线分隔行,布局更接近真实规格表
- ERNIE 图标有彩色背景(齿轮/齿轮/铅笔/计算器 emoji-style)
结论:文字+数字混排是 Z 的硬伤区域。ERNIE 拿这种 prompt 几乎零压力。
三、为什么会这样?
简短版技术解释:
- Z-Image-Turbo 的训练语料以英文为主,中文 token 占比少。CLIP 编码器是 Qwen-3-4B(4B 参数),对中文长 prompt 的语义捕捉弱于对英文的。Diffusion 主体在去噪时,文本条件不充分就会在”形近字”和”重复行”上出问题。
- ERNIE-Image-Turbo 是百度原生双语 DiT。Ministral 3 3B 文本编码器对中文的 tokenization 更紧凑(同样长度的中文 prompt 占 token 数更少 → 语义密度更高),加上训练语料原生双语 + 大量中文图表/海报数据,文字渲染在 DiT 的”去噪到目标像素”那一步就有了足够强的文本条件。
- 速度差异:ERNIE 主模型 15GB、DiT hidden 4096、KV cache 都比 Z 大,1024×1024 也超过 Z 1024² 的 native 范围(ERNIE 主要训 832×1216),所以慢。
部署 ERNIE 的具体步骤(模型下载、mistral_common 依赖、flat workflow、踩坑)见姐妹篇《ComfyUI + Z-Image-Turbo + AMD ROCm 完整安装指南》的附录(待补全)。
四、选型建议
根据上面的实测,我的实际工作流:
| 场景 | 用什么 |
|---|---|
| 节日海报 / 信息图 / PPT 配图 / 教程卡片 | ERNIE |
| 小红书图文 / 公众号头图 / 品牌物料 | ERNIE |
| 概念场景 / 人物 / 风景 / 抽象画 | Z(快一倍) |
| 视频帧 / 训练数据合成 / 批量出图 | Z(VRAM 省一半) |
| 字幕 / 水印 / 数据可视化 | ERNIE |
| 混合:场景 + 字幕 | 优先 ERNIE,字幕别让 Z 渲 |
本文档更新时间:2026年6月25日