Datasets

Training corpora, text-to-image datasets, image editing datasets, and interleaved image-text data for unified multimodal models.

⌘K

Comprehensive datasets for unified multimodal models — curated from Awesome-Unified-Multimodal-Models. Covers training corpora, text-to-image datasets, image editing datasets, and interleaved image-text data.

Multimodal Understanding Datasets 11 datasets

Dataset	Scale	Description	Venue	Year
Molmo2	—	Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding	arXiv	2026
Youtu-Parsing	—	Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding	arXiv	2026
ViMix-14M	14M	ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions	arXiv	2025
Honey-Data-15M	15M	High-quality corpus for advanced fully open MLLMs	arXiv	2025
Infinity-MM	40M	Scaling multimodal performance with instruction data	arXiv	2024
LLaVA-OneVision	4.8M	Easy visual task transfer	TMLR	2024
Cambrian-10M	10M	Vision-centric exploration of multimodal LLMs	NeurIPS	2024
ShareGPT4V	100K	Better captions for large multi-modal models	ECCV	2023
CapsFusion-120M	120M	Rethinking image-text data at scale	CVPR	2023
DataComp	1.4B	Next-generation multimodal dataset search	NeurIPS	2023
LAION-5B	5.9B	Open large-scale multi-modal dataset	NeurIPS	2022

Text-to-Image Datasets 10 datasets

Dataset	Scale	Description	Venue	Year
FLUX-Reason-6M	6M	Million-scale text-to-image reasoning dataset	arXiv	2025
ShareGPT-4o-Image	45K	Aligning multimodal models with GPT-4o-level generation	arXiv	2025
BLIP3o-60k	60K	Unified multimodal models architecture training dataset	arXiv	2025
TextAtlas5M	5M	Large-scale dataset for dense text image generation	arXiv	2025
PD12M	12M	Highly aesthetic image-text dataset with novel governance	arXiv	2024
PixelProse	16M	Large dataset of dense image captions	arXiv	2024
JourneyDB	4M	Benchmark for generative image understanding	NeurIPS	2023
Mario-10M	10M	TextDiffuser dataset for text rendering	NeurIPS	2023
SAM	11M	Segment Anything dataset	ICCV	2023
LAION-Aesthetics	120M	Aesthetic subset of LAION-5B	NeurIPS	2022

Image Editing Datasets 8 datasets

Dataset	Scale	Description	Venue	Year
X2Edit	3.7M	Arbitrary-instruction image editing dataset	arXiv	2025
ByteMorph-6M	6M	Instruction-guided image editing with non-rigid motions	arXiv	2025
ImgEdit	1.2M	Unified image editing dataset and benchmark	arXiv	2025
AnyEdit	2.5M	Mastering unified high-quality image editing	CVPR	2024
OmniEdit	1.2M	Building image editing generalist models	ICLR	2024
UltraEdit	4M	Instruction-based fine-grained image editing at scale	NeurIPS	2024
HQ-Edit	197K	High-quality dataset for instruction-based image editing	arXiv	2024
InstructP2P	313K	Learning to follow image editing instructions	CVPR	2022

Interleaved Image-Text Corpora 4 datasets

Dataset	Scale	Description	Venue	Year
OmniCorpus	8B	Unified multimodal corpus of 10B-level images interleaved with text	ICLR	2024
CoMM	227K	Coherent interleaved image-text dataset for multimodal understanding	CVPR	2024
OBELICS	141M	Open web-scale filtered interleaved image-text documents	NeurIPS	2023
Multimodal C4	101.2M	Open, billion-scale corpus of images interleaved with text	NeurIPS	2023

Unified Models Survey 1 survey

Title	Domain	Venue	Year
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities	Unified	arXiv	2025