VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

Hidir Yesiltepe¹, Jiazhen Hu¹, Tuna Han Salih Meral¹, Adil Kaan Akan², Kaan Oktay², Hoda Eldardiry¹, Pinar Yanardag¹
¹Virginia Tech ²fal

arXiv Code Thread BibTeX

Teaser

Qualitative Results

5 Seconds
|

30 Seconds
|

VideoMLA - LongSANA Comparison
|

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

VideoMLA (Ours)

LongSANA

Ablations

NoPE - RoPE Ablations
|

RoPE Heavy (RoPE=96, NoPE=32)

Balanced (RoPE=64, NoPE=64)

NoPE Heavy (RoPE=32, NoPE=96)

Qualitative Comparison
|

5 Seconds

Self Forcing

Rolling Forcing

Causal Forcing

Deep Forcing

Reward Forcing

LongLive

Infinity-RoPE

LongSANA

VideoMLA (Ours)

Self Forcing

Rolling Forcing

Causal Forcing

Deep Forcing

Reward Forcing

LongLive

Infinity-RoPE

LongSANA

VideoMLA (Ours)