AI实战

ERNIE vs Z-Image 生图对比:文字与非文字场景的实测

同 prompt、同 seed,4 个场景实测 Z-Image-Turbo vs ERNIE-Image-Turbo。文字密集选 ERNIE,纯场景选 Z——选型一句话,逐项拆给你看。

ERNIE vs Z-Image 生图对比:文字与非文字场景的实测 封面

ERNIE vs Z-Image 生图对比:文字与非文字场景的实测

上一篇文章《ComfyUI + Z-Image-Turbo + AMD ROCm 完整安装指南》的配图你看过了——里面那些奇怪的字(“开源 6B 签数 DiT”、“PyTorIs”、重复出现的”耗时 25”)不是 prompt 写得不好,是 Z-Image-Turbo 在中文+英文+数字混排时的真实表现。这篇文章把同一段 prompt 分别喂给 Z 和 ERNIE-Image-Turbo,一张张对比给你看,顺便讲讲选型建议。

测试时间:2026年6月。硬件:AMD Radeon RX 7900 XTX 24GB + ROCm 7.2.3 + ComfyUI 0.22.0。两边的 sampler、steps、cfg、seed 都对齐了。


一、先说结论

维度Z-Image-TurboERNIE-Image-Turbo
纯场景(无文字)略胜(细节更电影感)略弱(更偏漫画/插画)
少量文字(标题+1 行)不分伯仲不分伯仲
大量中文+英文混排经常错字、漏字、错位准确
数字+单位(“16GB”、“832×1216”)“PyTorch” → “PyTorIs”准确
速度(1024×1024, 8 步)~10 秒~25 秒
VRAM 占用~7-8 GB~14-18 GB

选型一句话

  • 文字密集场景(海报、信息图、教程卡、PPT 配图、小红书卡片、品牌物料)→ ERNIE
  • 纯画面(场景、人物、概念图、3D 视觉)→ Z,快一倍

下面逐项拆开看。


二、4 个场景实测

每个场景用完全相同的 prompt、相同的 seed(不同 model 的 seed 等价性不严格,但视觉差异主要来自模型本身),相同的 1024×1024 方形尺寸对比。

1. 纯场景(无任何文字)

Prompt

a cyberpunk samurai standing on a rooftop at sunset, dramatic city skyline below, neon reflections on wet surface, cinematic lighting, high detail, 8k render

Z-Image-TurboZ 赛博武士

ERNIE-Image-TurboERNIE 赛博武士

观察:

  • Z 偏电影写实风——武士背对镜头、装甲铆钉和雨水细节、紫色霓虹天际线
  • ERNIE 偏漫画插画风——武士正面全身、传统兜+铠甲、抽出太刀的城市夜景
  • 文件大小差异明显:Z 1.15MB,ERNIE 1.78MB——ERNIE 渲染的细节更密集(背景霓虹招牌、屋檐装饰都画出来了)

结论:纯场景下两者风格走向不同,Z 偏写实、ERNIE 偏插画,谈不上谁碾压谁,但 Z 速度快 2.5 倍,在批量出场景图时省时间。


2. 少量文字(英文标题 + 中文小字)

Prompt

minimal movie poster style, big bold black text ‘SUMMER SALE’ at the top, smaller red text ‘限时 7 天’ below, retro travel poster aesthetic, simple sun and palm tree silhouette, beige background

Z-Image-TurboZ 海报

ERNIE-Image-TurboERNIE 海报

观察:

  • 两个都对——“SUMMER SALE” 拼写都对、“限时 7 天” 三个汉字都对
  • Z 把 “SUMMER SALE” 拆成两行(一行排不下),ERNIE 排成一行
  • Z 用粗黑无衬线字体,ERNIE 用复古衬线(更”海报感”)
  • 棕榈树、太阳、纸张做旧等装饰元素 ERNIE 更丰富

结论:文字量少的时候 Z 也能跑对。这次两个模型都没出错。但 Z 的字体选择、布局灵活性弱于 ERNIE——Z 是”刚好能用”,ERNIE 是”有设计感”。


3. 大量文字(5 行带中文描述的知识卡)

Prompt

notion style knowledge card on cream background, 5 stacked info rows, each with icon and Chinese text: 1) robot icon ‘开源 6B 参数 DiT’ 2) clock icon ‘25 秒出图’ 3) brush icon ‘中英文双优’ 4) chip icon ‘16GB 显存’ 5) rocket icon ‘ROCm 7.2 / PyTorch 2.13’

Z-Image-TurboZ 知识卡

ERNIE-Image-TurboERNIE 知识卡

观察(Z 出错清单):

  • 第 1 行 “开源 6B 签数 DiT”——“参数” 的 “” 渲染成 “
  • 第 5 行 “ROCm 7.2 / PyTorIs 2.13”——“PyTorch” 的 “ch” 渲染成 “Is”(视觉上 h → l)
  • Z 的图标是简笔线稿风格(机器人的手没了、火箭没火焰)
  • ERNIE 5 行全部正确:开源 6B 参数 DiT / 25 秒出图 / 中英文双优 / 16GB 显存 / ROCm 7.2 / PyTorch 2.13
  • ERNIE 的图标有立体细节(机器人的天线和头、芯片的散热鳍片、火箭的火焰和尾迹)

结论:文字量上去之后 Z 开始翻车。典型的”形近字混淆”是 Z 的通病——训练数据里中文相似字(参/签/答/管、c/l/o/O/0)区分度不够,模型在跨字形+跨语种混排时容易模糊。


4. 文字+数字混排(规格表)

Prompt

clean technical infographic on white background, 4 spec rows in monospace font: ‘显存 16GB’ ‘分辨率 832x1216’ ‘耗时 25 秒’ ‘体积 15 GB’, each with a small relevant icon, header in Chinese ‘硬件要求’

Z-Image-TurboZ 规格表

ERNIE-Image-TurboERNIE 规格表

观察(Z 又翻车):

  • Z 把”耗时 25 秒”这一行重复渲染了两次(“耗时 25” + “耗时 5 秒”),且第一次漏掉了”秒”字
  • 4 行规格变 5 行,结构乱了
  • Z 的图标是简笔线稿(无填色)
  • ERNIE 4 行整齐正确:显存 16GB / 分辨率 832x1216 / 耗时 25 秒 / 体积 15 GB
  • ERNIE 自动用表格线分隔行,布局更接近真实规格表
  • ERNIE 图标有彩色背景(齿轮/齿轮/铅笔/计算器 emoji-style)

结论:文字+数字混排是 Z 的硬伤区域。ERNIE 拿这种 prompt 几乎零压力。


三、为什么会这样?

简短版技术解释:

  • Z-Image-Turbo 的训练语料以英文为主,中文 token 占比少。CLIP 编码器是 Qwen-3-4B(4B 参数),对中文长 prompt 的语义捕捉弱于对英文的。Diffusion 主体在去噪时,文本条件不充分就会在”形近字”和”重复行”上出问题。
  • ERNIE-Image-Turbo 是百度原生双语 DiT。Ministral 3 3B 文本编码器对中文的 tokenization 更紧凑(同样长度的中文 prompt 占 token 数更少 → 语义密度更高),加上训练语料原生双语 + 大量中文图表/海报数据,文字渲染在 DiT 的”去噪到目标像素”那一步就有了足够强的文本条件。
  • 速度差异:ERNIE 主模型 15GB、DiT hidden 4096、KV cache 都比 Z 大,1024×1024 也超过 Z 1024² 的 native 范围(ERNIE 主要训 832×1216),所以慢。

部署 ERNIE 的具体步骤(模型下载、mistral_common 依赖、flat workflow、踩坑)见姐妹篇《ComfyUI + Z-Image-Turbo + AMD ROCm 完整安装指南》的附录(待补全)。


四、选型建议

根据上面的实测,我的实际工作流:

场景用什么
节日海报 / 信息图 / PPT 配图 / 教程卡片ERNIE
小红书图文 / 公众号头图 / 品牌物料ERNIE
概念场景 / 人物 / 风景 / 抽象画Z(快一倍)
视频帧 / 训练数据合成 / 批量出图Z(VRAM 省一半)
字幕 / 水印 / 数据可视化ERNIE
混合:场景 + 字幕优先 ERNIE,字幕别让 Z 渲

本文档更新时间:2026年6月25日