Controllable, Efficient & Long Video Generation

Camera control, motion trajectories, inference acceleration, and techniques for generating longer, higher-quality videos.

⌘K

Controllable Video Generation (2024–2025) 27+ papers

Model	Full Title	Venue	Year
BulletTime	BulletTime: Decoupled Control of Time and Camera Pose for Video Generation	arXiv	2025
InfCam	InfCam: Depth-Free Camera Control via Infinite Homography Warping	arXiv	2025
VACE	All-in-One Video Creation and Editing	Alibaba	2025
FlexiAct	Towards Flexible Action Control in Heterogeneous Scenarios	SIGGRAPH	2025
VideoPainter	Any-length Video Inpainting and Editing with Plug-and-Play Context Control	SIGGRAPH	2025
GEN3C	3D-Informed World-Consistent Video Generation with Precise Camera Control	CVPR	2025
ReCamMaster	Camera-Controlled Generative Rendering from A Single Video	arXiv	2025
CineMaster	A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation	arXiv	2025
MotionCanvas	Cinematic Shot Design with Controllable Image-to-Video Generation	arXiv	2025
MagicMotion	Controllable Video with Dense-to-Sparse Trajectory Guidance	arXiv	2025
CameraCtrl II	Dynamic Scene Exploration via Camera-controlled Video Diffusion Models	arXiv	2025
C-Drag	Chain-of-Thought Driven Motion Controller for Video Generation	arXiv	2025
Any2Caption	Interpreting Any Condition to Caption for Controllable Video Generation	arXiv	2025
SketchVideo	Sketch-based Video Generation and Editing	arXiv	2025
OmniVDiff	Omni Controllable Video Diffusion for Generation and Understanding	arXiv	2025
Tora	Trajectory-oriented Diffusion Transformer for Video Generation	CVPR	2025
MotionCtrl	A Unified and Flexible Motion Controller for Video Generation	SIGGRAPH	2024
CameraCtrl	Enabling Camera Control for Video Diffusion Models	arXiv	2024
DragAnything	Motion Control for Anything using Entity Representation	ECCV	2024
DragNUWA	Fine-grained Control via Text, Image, and Trajectory	arXiv	2023
SparseCtrl	Adding Sparse Controls to Text-to-Video Diffusion Models	arXiv	2023
TrailBlazer	Trajectory Control for Diffusion-Based Video Generation	arXiv	2024
Animate Anyone	Consistent and Controllable Image-to-Video Synthesis for Character Animation	arXiv	2023
Control-A-Video	Controllable Text-to-Video Generation with Diffusion Models	arXiv	2023
ControlVideo	Training-free Controllable Text-to-Video Generation	arXiv	2023

Efficient Video Generation (2024–2025) 16+ papers

Model	Full Title	Venue	Year
TeleBoost	TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation	arXiv	2026
SpargeAttn	Accurate Sparse Attention Accelerating Any Model Inference	arXiv	2025
SageAttention2	Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization	arXiv	2025
FlashVideo	Flowing Fidelity to Detail for Efficient High-Resolution Video Generation	arXiv	2025
Sparse VideoGen	Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity	arXiv	2025
Fast Sliding Tile Attention	Fast Video Generation with Sliding Tile Attention	arXiv	2025
Diffusion Adversarial Post-Training	One-Step Video Generation	arXiv	2025
Turbo2K	Towards Ultra-Efficient and High-Quality 2K Video Synthesis	arXiv	2025
T2V-Turbo-v2	Enhancing Video Generation Model Post-Training	arXiv	2024
Real-Time PAB	Real-Time Video Generation with Pyramid Attention Broadcast	arXiv	2024
xGen-VideoSyn-1	High-fidelity Text-to-Video Synthesis with Compressed Representations	arXiv	2024
SageAttention	Accurate 8-Bit Attention for Plug-and-play Inference Acceleration	arXiv	2024
From Slow to Fast	From Slow Bidirectional to Fast Causal Video Generators	arXiv	2024
MotionStream	MotionStream: Real-Time Video Generation with Interactive Motion Controls	arXiv	2025
Delta-DiT	Delta-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers	arXiv	2025
TeaCache	TeaCache: Training-Free Input-Aware Cache for Accelerating Diffusion Models	arXiv	2025

Long Video & Film Generation (2024–2025) 24+ papers

Model	Full Title	Venue	Year
HoloCine	HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives	arXiv	2025
CineScene	CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation	arXiv	2026
SkyReels-V2	Infinite-length Film Generative Model	arXiv	2025
Mask²DiT	Dual Mask-based Diffusion Transformer for Multi-Scene Long Video	CVPR	2025
One-Minute Video	Test-Time Training for Long Video Generation	arXiv	2025
MovieAgent	Automated Movie Generation via Multi-Agent CoT Planning	arXiv	2025
Long Context Tuning	Long Context Tuning for Video Generation	arXiv	2025
RIFLEx	A Free Lunch for Length Extrapolation in Video Diffusion Transformers	arXiv	2025
VideoAuteur	Towards Long Narrative Video Generation	arXiv	2025
Ouroboros-Diffusion	Exploring Consistent Content Generation in Tuning-free Long Video Diffusion	arXiv	2025
DiTCtrl	Exploring Attention Control in Multi-Modal DiT for Multi-Prompt Longer Video	arXiv	2024
LinGen	Towards High-Resolution Minute-Length T2V with Linear Computational Complexity	arXiv	2024
Loong	Generating Minute-level Long Videos with Autoregressive Language Models	arXiv	2024
ARLON	Boosting Diffusion Transformers with AR Models for Long Video	arXiv	2024
MovieDreamer	Hierarchical Generation for Coherent Long Visual Sequence	arXiv	2024
FIFO-Diffusion	Generating Infinite Videos from Text without Training	arXiv	2024
StoryDiffusion	Consistent Self-Attention for Long-Range Image and Video Generation	arXiv	2024
StreamingT2V	Consistent, Dynamic, and Extendable Long Video Generation from Text	arXiv	2024
Gen-L-Video	Multi-Text to Long Video Generation via Temporal Co-Denoising	arXiv	2023
NUWA-XL	Diffusion over Diffusion for eXtremely Long Video Generation	Microsoft	2023
GameFactory	GameFactory: Creating New Games with Generative Interactive Videos	arXiv	2025
MemoryPack	MemoryPack: Long-Form Autoregressive Video Generation via Learnable Context Retrieval	arXiv	2025

Video Generation with 3D/Physical Prior (2024–2025) 15+ papers

Model	Full Title	Venue	Year
DiffusionRenderer	Neural Inverse and Forward Rendering with Video Diffusion Models	arXiv	2025
Diffusion as Shader	3D-aware Video Diffusion for Versatile Video Generation Control	arXiv	2025
ReVision	High-Quality Low-Cost Video Generation with Explicit 3D Physics Modeling	arXiv	2025
MoReGen	Physics-Grounded Video Synthesis with Multi-agent LLMs	arXiv	2025
Force Prompting	Video Generation Models Can Learn Physics-based Control	arXiv	2025
PhysGen	Rigid-Body Physics-Grounded Image-to-Video Generation	arXiv	2024
PhysDreamer	Physics-Based Interaction with 3D Objects via Video Generation	ECCV	2024
AutoVFX	Physically Realistic Video Editing from Natural Language Instructions	arXiv	2024
PhysMotion	Physics-Grounded Dynamics From a Single Image	arXiv	2024
PhyT2V	LLM-Guided Iterative Self-Refinement for Physics-Grounded T2V	arXiv	2024
ViewCrafter	Taming Video Diffusion Models for High-fidelity Novel View Synthesis	arXiv	2024
StereoCrafter	Diffusion-based Generation of Long Stereoscopic 3D from Monocular Videos	arXiv	2024
Vid2World	Vid2World: Crafting Video Diffusion Models to Interactive World Models	ICLR	2026

Alignment & Feedback (2024–2026) 1+ papers

Model	Full Title	Venue	Year
FairT2V	FairT2V: Training-Free Debiasing Framework for Text-to-Video Diffusion Models	arXiv	2026