aha · 知识图谱 V3 · 生成回测

生成的图,落对位置了吗

把生成图库里每张图喂回我们自己的 VLM,读出它在世界观平面的实际坐标,和图谱给的预期坐标比——这是"理解→生成"链条上**唯一能证伪自己**的一环:误差小=编译器+模型真能实现指定风格;误差大=据实暴露。

⚠️ 诚实标注尺子的精度:测坐标的 VLM 是"目测"。给提示词加了锚点刻度+先描述后打分后,重读抖动从 ±0.08 降到 ±0.05(且每张读 3 次取平均)。拿真名画校准:参照干净时尺子很准(雷诺阿误差 0.09≈噪声底),整体残差 ~0.18 大头来自"单幅画 vs 风格/个人平均坐标"的参照错配,不是尺子(例:梵高《麦田》本就比其均值更"感知")。所以绝对误差当粗筛(抓大错),最可信的是"同条件下模型 A vs B 的相对排名"。不把目测当尺规。

① 预期 → 实际 · 偏移图

空心=图谱预期位置,实心=VLM 读出的实际位置,连线=偏移。横轴再现→表现,纵轴结构→感知(上为感知)。

② 按模型 · 保真度

平均误差越小=该模型越能把图谱指定的风格真画出来。这把"哪个模型更好"变成可测的数。

③ 逐张

← 返回生成图库