版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

        近期,MILab在长程视觉生成一致性上取得进展,提出了一种基于“自回归+扩散模型”的名为 Narrative Weaver 的新架构 ,相关研究论文“Enhancing Image Restoration Transformer via Adaptive Translation Equivariance”已被CVPR 2026会议接收。

        

一、 研究背景

在生成式人工智能领域,虽然现有的模型能够生成高质量的短视觉内容,但在长序列中保持叙事连贯性和视觉一致性(如人物、背景的统一)依然是一个巨大的挑战 。尽管  Sora、Veo 和 Midjourney 等系统在生成高保真图像和视频方面表现出色,但它们往往难以维持长距离的叙事连续性 。目前大多数工具仅限于单帧操作,或者主要依赖纯文本输入,这使得生成结果缺乏精细的可控性,极易出现人物形象走样或背景逻辑混乱的“视觉漂移”现象


二、 核心方法

为了突破这一局限,研究团队提出了 Narrative Weaver 框架。该框架采用了 自回归(AR)+ 扩散模型(Diffusion)的混合设计方案


多模态大模型(MLLM)充当“导演”:在自回归部分,模型利用 MLLM 作为核心,负责规划高层叙事逻辑并生成分镜脚本(Storyboard)  

可学习查询(Learnable Queries):将历史多模态信息压缩成精简的表征,引导后续画面的生成

动态记忆库(Memory Bank):框架内置了一个动态记忆库,缓存之前生成图像的特征。通过几何级数衰减的技术手段,模型既能锚定初始视觉条件,又能兼顾近期历史,从而确保长序列生成的稳定性  


View file
nameMethodv4.pdf
height250

三、 技术创新

Narrative Weaver 的创新性主要体现在以下三个方面: 

首个闭环方案:它首次将精细化控制、自动叙事规划和长程连贯性无缝集成在了一起


高效训练策略:设计了一种渐进式多阶段训练策略(叙事规划、语义对齐、精细一致性对齐),使得模型即使在训练数据有限的情况下也能达到卓越性能


四、 实验结果

实验结果表明,Narrative Weaver 在可控多场景生成、自主叙事和电商广告创作三大场景中均表现出了超越现有主流方法(如 IP-Adapter, StoryDiffusion, Flux.1-kontext 等)的能力


一致性指标领先:在 GPT-4o 的评估中,该方法在图文一致性(ITC)和参考一致性(RGC)等关键维度上均取得了领先的得分


实战表现优异:模型能够自主规划并生成符合电影拍摄手法(如特写、平行剪辑等)的视觉序列,且在光影、构图和实体保持方面表现极其稳定



View file
nameTask1_1v3.pdf
height250

View file
nameTask3_1v3.pdf
height250

View file
nameTask2_1v2.pdf
height250

五、 结语

Narrative Weaver 是生成式 AI 正从“单点生成”迈向“系统性创作”的一次探索 。虽然目前的实现主要集中在静态图像序列上,但其架构具有极强的普适性,未来可轻松扩展至连贯的视频生成领域,在电影智能创作等下游场景中有很大的应用前景 



       该论文第一作者为MILab博士生姚政见,卢闫晔助理教授为本文的通讯作者。该研究得到了国家重点研发计划、首都卫生发展科研专项、国家自然科学基金、北京大学肿瘤医院科研基金的支持。


文章链接:TODO