Video Editing, Enhancement & Motion Transfer

Text-guided video editing, style transfer, motion customization, video inpainting, super-resolution, and audio synthesis for video.

⌘K

Video Editing (2023–2025) 42+ papers

Model	Full Title	Venue	Year
AnyEdit	AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea	arXiv	2025
ConsistI2V-Edit	Consistent Video Editing with Instruction-Tuned Diffusion Models	arXiv	2025
DiffusionPen	DiffusionPen: Towards Controllable Style-Specific Handwritten Text Generation	arXiv	2025
VACE	All-in-One Video Creation and Editing	Alibaba	2025
VideoPainter	Any-length Video Inpainting and Editing with Plug-and-Play Context Control	SIGGRAPH	2025
VideoGrain	Modulating Space-Time Attention for Multi-grained Video Editing	ICLR	2025
Señorita-2M	High-Quality Instruction-based Dataset for General Video Editing	arXiv	2025
MTV-Inpaint	Multi-Task Long Video Inpainting	arXiv	2025
MiniMax-Remover	Taming Bad Noise Helps Video Object Removal	arXiv	2025
LoRA-Edit	Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA	arXiv	2025
VEGGIE	Instructional Editing and Reasoning of Video Concepts	arXiv	2025
StableV2V	Stablizing Shape Consistency in Video-to-Video Editing	arXiv	2024
AnyV2V	AnyV2V: A Tuning-Free Framework for Any Video-to-Video Editing Tasks	TMLR	2024
ReVideo	Remake a Video with Motion and Content Control	arXiv	2024
I2VEdit	First-Frame-Guided Video Editing via Image-to-Video Diffusion Models	arXiv	2024
FlowVid	Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis	arXiv	2023
TokenFlow	TokenFlow: Consistent Diffusion Features for Consistent Video Editing	ICLR	2024
Rerender A Video	Zero-Shot Text-Guided Video-to-Video Translation	SIGGRAPH Asia	2023
FateZero	Fusing Attentions for Zero-shot Text-based Video Editing	ICCV	2023
CoDeF	Content Deformation Fields for Temporally Consistent Video Processing	CVPR	2024
VideoSwap	Customized Video Subject Swapping with Interactive Semantic Point	CVPR	2024
FLATTEN	Optical Flow-guided Attention for Consistent T2V Editing	ICLR	2024
MotionEditor	Editing Video Motion via Content-Aware Diffusion	arXiv	2023
Ground-A-Video	Zero-shot Grounded Video Editing using T2I Diffusion Models	ICLR	2024
Tune-A-Video	One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation	ICCV	2023
Dreamix	Video Diffusion Models Are General Video Editors	Google	2023
Pix2video	Video Editing Using Image Diffusion	arXiv	2023
Video-P2P	Video Editing with Cross-attention Control	arXiv	2023
Edit-A-Video	Single Video Editing with Object-Aware Consistency	arXiv	2023
RAVE	RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models	CVPR	2024
MagicEdit	MagicEdit: High-Fidelity and Temporally Coherent Video Editing	arXiv	2024

Motion Transfer & Customization (2024–2025) 22+ papers

Model	Full Title	Venue	Year
MotionPro	Precise Motion Controller for Image-to-Video Generation	CVPR	2025
Frame In-N-Out	Unbounded Controllable Image-to-Video Generation	arXiv	2025
FlexiAct	Towards Flexible Action Control in Heterogeneous Scenarios	SIGGRAPH	2025
Go-with-the-Flow	Motion-Controllable Video Diffusion Using Real-Time Warped Noise	arXiv	2025
Separate Motion from Appearance	Customizing Motion via T2V Diffusion Models	arXiv	2025
LMP	Leveraging Motion Prior in Zero-Shot Video Generation with DiT	arXiv	2025
MotionShop	Zero-Shot Motion Transfer with Mixture of Score Guidance	arXiv	2024
Video Motion Transfer	Motion Transfer with Diffusion Transformers	arXiv	2024
Trajectory Attention	Fine-grained Video Motion Control	arXiv	2024
MotionClone	Training-Free Motion Cloning for Controllable Video Generation	arXiv	2024
VMC	Video Motion Customization using Temporal Attention Adaption	CVPR	2024
DreamVideo	Composing Dream Videos with Customized Subject and Motion	CVPR	2024
Spectral Motion Alignment	Video Motion Transfer using Diffusion Models	arXiv	2024
MotionDirector	Motion Customization of Text-to-Video Diffusion Models	ECCV	2024
LAMP	Learn A Motion Pattern for Few-Shot-Based Video Generation	CVPR	2024
DreamMotion	Space-Time Self-Similarity Score Distillation for Zero-Shot Video Editing	ECCV	2024
Customize-A-Video	One-Shot Motion Customization of Text-to-Video Diffusion Models	arXiv	2024
Motion Inversion	Motion Inversion for Video Customization	arXiv	2024
Time-to-Move	Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising	arXiv	2025
ReVideo	ReVideo: Remake a Video with Motion and Content Control	arXiv	2024

Video Enhancement & Restoration 10+ papers

Model	Full Title	Venue	Year
Enhance-A-Video	Better Generated Video for Free	arXiv	2025
SVFR	Unified Framework for Generalized Video Face Restoration	arXiv	2025
VEnhancer	Generative Space-Time Enhancement for Video Generation	arXiv	2024
Upscale-A-Video	Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution	ECCV	2024
DiffIR2VR-Zero	Zero-Shot Video Restoration with Diffusion-based Image Restoration	arXiv	2024
LDMVFI	Video Frame Interpolation with Latent Diffusion Models	arXiv	2023
CaDM	Codec-aware Diffusion Modeling for Neural-enhanced Video Streaming	arXiv	2022
FlashVSR	FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution	arXiv	2025

Audio Synthesis for Video (2024–2025) 15+ papers

Model	Full Title	Venue	Year
AV-DiT	Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video	arXiv	2025
UniForm	Unified Diffusion Transformer for Audio-Video Generation	arXiv	2025
Stable-V2A	Synthesis of Synchronized Audio Effects with Temporal and Semantic Controls	arXiv	2024
AV-Link	Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video	arXiv	2024
FoleyCrafter	Bring Silent Videos to Life with Lifelike and Synchronized Sounds	arXiv	2024
Read, Watch and Scream!	Sound Generation from Text and Video	arXiv	2024
Video-to-Audio	Video-to-Audio Generation with Hidden Alignment	arXiv	2024
MusicInfuser	Making Video Diffusion Listen and Dance	arXiv	2025
Draw an Audio	Leveraging Multi-Instruction for Video-to-Audio Synthesis	arXiv	2024
Video-Foley	Two-Stage Video-To-Sound Generation via Temporal Event Condition	arXiv	2024
Masked Generative V2A	Masked Generative Video-to-Audio Transformers with Synchronicity	arXiv	2024
MuVi	Video-to-Music Generation with Semantic Alignment	arXiv	2024

Virtual Try-On 5+ papers

Model	Full Title	Venue	Year
KeyTailor	KeyTailor: Keyframe-Driven Details Injection for Video Virtual Try-On	arXiv	2025
1-2-1	Renaissance of Single-Network Paradigm for Virtual Try-On	arXiv	2025
Dynamic Try-On	Taming Video Virtual Try-on with Dynamic Attention Mechanism	arXiv	2024
Fashion-VDM	Video Diffusion Model for Virtual Try-On	arXiv	2024
ViViD	Video Virtual Try-on using Diffusion Models	arXiv	2024