Image Animation & Portrait Generation

Core image-to-video models, character-driven animation, human motion synthesis, and audio-driven talking head generation.

⌘K

Core Image-to-Video Models (2023–2025) 38+ papers

Model	Full Title	Venue	Year
Pixel-to-4D	Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians	arXiv	2026
Veo 2	Veo 2: State-of-the-Art Video Generation with Google DeepMind	Google DeepMind	2025
Kling 1.6	Kling 1.6: Advanced AI Video Generation Model	Kuaishou	2025
Pika 2.0	Pika 2.0: Next-Generation AI Video Generator	Pika Labs	2025
Runway Gen-3 Alpha	Gen-3 Alpha: A New Frontier for Video Generation Models	Runway	2024
Luma Dream Machine	Dream Machine: AI Model That Makes High Quality Videos from Text and Images	Luma AI	2024
Jimeng	Jimeng: Image-to-Video Generation with Diffusion Transformers	ByteDance	2025
Stable Video Diffusion	Scaling Latent Video Diffusion Models to Large Datasets	Stability AI	2023
DynamiCrafter	Animating Open-domain Images with Video Diffusion Priors	CUHK	2023
I2VGen-XL	High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models	Alibaba	2023
PIA	Personalized Image Animator via Plug-and-Play Modules in T2I Models	arXiv	2023
AnimateDiff	Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning	ICLR	2024
ConsistI2V	Enhancing Visual Consistency for Image-to-Video Generation	arXiv	2024
TI2V-Zero	Zero-Shot Image Conditioning for Text-to-Video Diffusion Models	CVPR	2024
MagicTime	Time-lapse Video Generation Models as Metamorphic Simulators	arXiv	2024
TRIP	Temporal Residual Learning with Image Noise Prior for I2V Diffusion Models	CVPR	2024
StoryDiffusion	Consistent Self-Attention for Long-Range Image and Video Generation	arXiv	2024
Video-LaVIT	Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization	arXiv	2024
Cinemo	Consistent and Controllable Image Animation with Motion Diffusion Models	arXiv	2024
I2V-Adapter	A General Image-to-Video Adapter for Video Diffusion Models	arXiv	2023
MotiF	Making Text Count in Image Animation with Motion Focal Loss	arXiv	2024
DLFR-VAE	Dynamic Latent Frame Rate VAE for Video Generation	arXiv	2025
Packing Input Frame Context	Next-Frame Prediction Models for Video Generation	arXiv	2025
Step-Video-TI2V	State-of-the-Art Text-Driven Image-to-Video Generation Model	arXiv	2025
SparseCtrl	SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models	arXiv	2024
LivePhoto	LivePhoto: Real Image Animation with Text-Guided Motion Control	arXiv	2024
ToonCrafter	ToonCrafter: Generative Cartoon Interpolation	arXiv	2024
Follow-Your-Click	Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts	arXiv	2024
FrameBridge	FrameBridge: Improving Image-to-Video Generation with Bridge Models	ICLR	2025
DFoT	History-Guided Video Diffusion: Diffusion Forcing Transformer for Variable-Length Conditioning	arXiv	2025
CogVideoX-I2V	CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer for I2V	ICLR	2025
Wan-I2V	Wan: Open and Advanced Large-Scale Image-to-Video Generative Models	Alibaba	2025
HunyuanVideo-I2V	HunyuanVideo: Image-to-Video Generation with Systematic Framework	Tencent	2025
EasyAnimate-I2V	EasyAnimate: An End-to-End Solution for Image-to-Video Generation	Alibaba	2024
ALIVE	ALIVE: Animate Your World with Lifelike Audio-Video Generation	arXiv	2026

Character Animation & Human Motion (2023–2025) 25+ papers

Model	Full Title	Venue	Year
OmniHuman-1	Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models	ICCV	2025
Animate Anyone 2	High-Fidelity Character Image Animation with Environment Affordance	ICCV	2025
MTVCrafter	4D Motion Tokenization for Open-World Human Image Animation	arXiv	2025
HumanDiT	Pose-Guided Diffusion Transformer for Long-form Human Motion Video	arXiv	2025
X-Dancer	Expressive Music to Human Dance Video Generation	arXiv	2025
AnyCharV	Bootstrap Controllable Character Video Generation with Fine-to-Coarse Guidance	arXiv	2025
HunyuanCustom	Multimodal-Driven Architecture for Customized Video Generation	arXiv	2025
VideoJAM	Joint Appearance-Motion Representations for Enhanced Motion Generation	arXiv	2025
Animate Anyone	Consistent and Controllable Image-to-Video Synthesis for Character Animation	arXiv	2023
MagicAnimate	Temporally Consistent Human Image Animation using Diffusion Model	NTU	2023
DreaMoving	A Human Video Generation Framework based on Diffusion Models	arXiv	2023
Champ	Controllable and Consistent Human Image Animation with 3D Parametric Guidance	arXiv	2024
UniAnimate	Taming Unified Video Diffusion Models for Consistent Human Image Animation	arXiv	2024
MimicMotion	High-Quality Human Motion Video with Confidence-aware Pose Guidance	arXiv	2024
LivePortrait	Efficient Portrait Animation with Stitching and Retargeting Control	arXiv	2024
ID-Animator	Zero-Shot Identity-Preserving Human Video Generation	arXiv	2024
DreamVideo-2	Zero-Shot Subject-Driven Video Customization with Precise Motion Control	arXiv	2024
CustomCrafter	Customized Video Generation with Preserving Motion and Concept Composition	arXiv	2024
Magic-Me	Identity-Specific Video Customized Diffusion	arXiv	2024
Concat-ID	Towards Universal Identity-Preserving Video Synthesis	arXiv	2025
Phantom	Subject-consistent Video Generation via Cross-modal Alignment	arXiv	2025
ConceptMaster	Multi-Concept Video Customization on DiT without Test-Time Tuning	arXiv	2025

Talking Head & Portrait Animation (2024–2025) 26+ papers

Model	Full Title	Venue	Year
Avatar Forcing	Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation	arXiv	2026
SuperHead	From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors	arXiv	2026
TalkingMachines	Real-Time Audio-Driven FaceTime-Style Video via AR Diffusion	arXiv	2025
OmniTalker	Real-Time Text-Driven Talking Head with In-Context Audio-Visual Style	arXiv	2025
MoCha	Towards Movie-Grade Talking Character Synthesis	arXiv	2025
SayAnything	Audio-Driven Lip Synchronization with Conditional Video Diffusion	arXiv	2025
KeySync	Robust Approach for Leakage-free Lip Synchronization	arXiv	2025
IM-Portrait	Learning 3D-aware Video Diffusion for Photorealistic Talking Heads	arXiv	2025
MEMO	Memory-Guided Diffusion for Expressive Talking Video Generation	ICLR	2025
Hallo3	Highly Dynamic Portrait Image Animation with Video Diffusion Transformer	CVPR	2025
Hallo2	Long-Duration and High-Resolution Audio-driven Portrait Animation	arXiv	2024
Hallo	Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation	arXiv	2024
EchoMimic	Lifelike Audio-Driven Portrait Animations through Editable Landmark	arXiv	2024
FLOAT	Generative Motion Latent Flow Matching for Audio-driven Talking Portrait	arXiv	2024
SINGER	Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion	arXiv	2024
Loopy	Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency	arXiv	2024
HelloMeme	Integrating Spatial Knitting Attentions for High-Fidelity Conditions	arXiv	2024
X-Portrait	Expressive Portrait Animation with Hierarchical Motion Attention	arXiv	2024
DAWN	Dynamic Frame Avatar with Non-autoregressive Diffusion for Talking Head	arXiv	2024
MimicTalk	Mimicking a Personalized and Expressive 3D Talking Face in Few Minutes	arXiv	2024
THEval	Evaluation Framework for Talking Head Generation	arXiv	2025
EmotiveTalk	EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion	CVPR	2025
Dimitra	Dimitra: Conditional Motion Diffusion Transformer for Audio-Driven Talking Head Generation	arXiv	2025
RAP	RAP: Real-Time Audio-Driven Portrait Animation using Video Diffusion Transformers	arXiv	2025
SadTalker	SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation	CVPR	2023