页面历史记录

近期，MILab在长程视觉生成一致性上取得进展，提出了一种基于“自回归+扩散模型”的名为 Narrative Weaver 的新架构，相关研究论文“Enhancing Image Restoration Transformer via Adaptive Translation Equivariance”已被CVPR 2026会议接收。

一、研究背景

在生成式人工智能领域，虽然现有的模型能够生成高质量的短视觉内容，但在长序列中保持叙事连贯性和视觉一致性（如人物、背景的统一）依然是一个巨大的挑战。。尽管 Sora、Veo 和 Midjourney 等系统在生成高保真图像和视频方面表现出色，但它们往往难以维持长距离的叙事连续性。目前大多数工具仅限于单帧操作，或者主要依赖纯文本输入，这使得生成结果缺乏精细的可控性，极易出现人物形象走样或背景逻辑混乱的“视觉漂移”现象。

二、核心方法

为了突破这一局限，研究团队提出了 Narrative Weaver 框架。该框架采用了 自回归（AR）+ 扩散模型（Diffusion）的混合设计方案。

多模态大模型（MLLM）充当“导演”：在自回归部分，模型利用 MLLM 作为核心，负责规划高层叙事逻辑并生成分镜脚本（Storyboard）。

可学习查询（Learnable Queries）：将历史多模态信息压缩成精简的表征，引导后续画面的生成。

动态记忆库（Memory Bank）：框架内置了一个动态记忆库，缓存之前生成图像的特征。通过几何级数衰减的技术手段，模型既能锚定初始视觉条件，又能兼顾近期历史，从而确保长序列生成的稳定性。

View file
name Methodv4.pdf
height 250

三、技术创新

Narrative Weaver 的创新性主要体现在以下三个方面：

首个闭环方案：它首次将精细化控制、自动叙事规划和长程连贯性无缝集成在了一起。

高效训练策略：设计了一种渐进式多阶段训练策略（叙事规划、语义对齐、精细一致性对齐），使得模型即使在训练数据有限的情况下也能达到卓越性能。

四、实验结果

实验结果表明，Narrative Weaver 在可控多场景生成、自主叙事和电商广告创作三大场景中均表现出了超越现有主流方法（如 IP-Adapter, StoryDiffusion, Flux.1-kontext 等）的能力。

一致性指标领先：在 GPT-4o 的评估中，该方法在图文一致性（ITC）和参考一致性（RGC）等关键维度上均取得了领先的得分。

实战表现优异：模型能够自主规划并生成符合电影拍摄手法（如特写、平行剪辑等）的视觉序列，且在光影、构图和实体保持方面表现极其稳定。

View file

name	Task1_1v3.pdf
height	250

View file

name	Task3_1v3.pdf
height	250

View file
name Task2_1v2.pdf
height 250

五、结语

Narrative Weaver 是生成式 AI 正从“单点生成”迈向“系统性创作”的一次探索。虽然目前的实现主要集中在静态图像序列上，但其架构具有极强的普适性，未来可轻松扩展至连贯的视频生成领域，在电影智能创作等下游场景中有很大的应用前景。

该论文第一作者为MILab博士生姚政见，卢闫晔助理教授为本文的通讯作者。该研究得到了国家重点研发计划、首都卫生发展科研专项、国家自然科学基金、北京大学肿瘤医院科研基金的支持。

文章链接：TODO

页面树结构

版本比较

旧版本 1

新版本 2

标识

一、研究背景

二、核心方法

View file
name Methodv4.pdf
height 250

三、技术创新

四、实验结果

View file
name Task2_1v2.pdf
height 250

五、结语

页面树结构

页面历史记录

版本比较

旧版本 1

新版本 2

标识

一、 研究背景

二、 核心方法

View filenameMethodv4.pdfheight250

三、 技术创新

四、 实验结果

View filenameTask2_1v2.pdfheight250

五、 结语

一、研究背景

二、核心方法

View file
name Methodv4.pdf
height 250

三、技术创新

四、实验结果

View file
name Task2_1v2.pdf
height 250

五、结语