Cross-Modal: Video, 3D & Motion

Natural extensions of T2I into the temporal and spatial domains — text-to-video, text-to-3D, motion generation, and shape synthesis.

⌘K

Text-to-Video Generation 15 papers

A natural extension of text-to-image synthesis into the temporal domain — generating coherent video sequences from textual descriptions using diffusion, autoregressive, and hybrid architectures.

Model	Full Title	Venue	Year
Sora	Video generation models as world simulators	OpenAI Tech Report	2024
Movie Gen	Movie Gen: A Cast of Media Foundation Models	Meta	2024
CogVideoX	CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer	arXiv	2024
HunyuanVideo	HunyuanVideo: A Systematic Framework For Large Video Generation Model	Tencent	2024
Wan-Video	Wan: Open and Advanced Large-Scale Video Generative Models	Alibaba	2025
Step-Video	Step-Video-T2V: A New Paradigm for Long Video Generation	StepFun	2025
SkyReels-V2	SkyReels-V2: Infinite-Length Film Generation with Diffusion Forcing	Kunlun	2025
Align your Latents	High-Resolution Video Synthesis with Latent Diffusion Models	CVPR	2023
LaVIE	High-Quality Video Generation with Cascaded Latent Diffusion	arXiv	2023
Emu Video	Factorizing Text-to-Video Generation by Explicit Image Conditioning	arXiv	2023
Make-A-Video	Text-to-Video Generation without Text-Video Data	arXiv	2022
Imagen Video	High Definition Video Generation with Diffusion Models	arXiv	2022
CogVideo	Large-scale Pretraining for Text-to-Video via Transformers	arXiv	2022
Video Diffusion Models	Foundational video diffusion framework	arXiv	2022
Lumina-T2X	Transforming Text into Any Modality via Flow-based Large DiT	arXiv	2024

Text-to-3D, Motion & Shape Generation 12 papers

Model	Full Title	Venue	Year
Trellis	TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation	Microsoft	2025
InstantMesh	InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-View LRMs	arXiv	2024
TripoSR	TripoSR: Fast 3D Object Reconstruction from a Single Image	StabilityAI	2024
Rodin Gen-1	Rodin Gen-1: Autoregressive Generation Beats Diffusion for 3D Generation	Microsoft	2025
Meta 3D Gen	Text-to-Mesh with High-Quality Geometry and PBR Materials	Meta	2024
LATTE3D	Large-scale Amortized Text-To-Enhanced3D Synthesis	arXiv	2024
ProlificDreamer	High-Fidelity Text-to-3D with Variational Score Distillation	arXiv	2023
DreamFusion	Text-to-3D using 2D Diffusion	ICLR	2023
Magic3D	High-Resolution Text-to-3D Content Creation	arXiv	2022
Point-E	Generating 3D Point Clouds from Complex Prompts	arXiv	2022
T2M-GPT	Generating Human Motion from Textual Descriptions	arXiv	2023
Human Motion Diffusion	Human Motion Diffusion Model	arXiv	2022