Benchmarks

Live arena rankings from human preference votes, established benchmarks, quantitative metrics, training datasets, and surveys.

⌘K

Image Generation Benchmarks 40 benchmarks

Benchmark	Evaluation Focus	Venue	Year
SpatialGen	Spatial intelligence generation evaluation	arXiv	2026
ColorConcept	Probabilistic color-concept T2I evaluation	arXiv	2026
GEBench	GUI environment generation benchmark	arXiv	2026
UReason	Reasoning probing for T2I models	arXiv	2026
UEval	Unified multimodal generation evaluation	arXiv	2026
GenExam	Multidisciplinary text-to-image examination	arXiv	2025
WISE	World knowledge-informed semantic evaluation for T2I	arXiv	2025
DreamBench++	Human-aligned personalized image generation	ICLR	2025
T2I-CompBench++	Enhanced compositional text-to-image evaluation	TPAMI	2025
GenEval 2	T2I generation drift detection benchmark	arXiv	2025
TIIF-Bench	T2I instruction following benchmark	arXiv	2025
R2I-Bench	Commonsense reasoning T2I evaluation	arXiv	2025
SciScore	Scientific illustration T2I evaluation	arXiv	2025
PHYSBENCH	Physical domain T2I evaluation	arXiv	2025
T2I-Reason	Idiom and entity reasoning T2I evaluation	arXiv	2025
UniGenBench	Unified 20-subtheme generation evaluation	arXiv	2025
T2I-ConBench	Continual learning retention T2I evaluation	arXiv	2025
OneIG-Bench	Unified anime and portrait generation evaluation	arXiv	2025
LongBench	Long instruction multi-type T2I evaluation	arXiv	2025
PRISM-Bench	Million-scale T2I reasoning evaluation	arXiv	2025
T2I-CoReBench	Core reasoning T2I evaluation	arXiv	2025
LongT2IBench	Graph-structured long text T2I evaluation	arXiv	2025
GIR-Bench	Generation-informed reasoning quality benchmark	arXiv	2025
MagicMirror	Fine-grained artifact assessment benchmark	arXiv	2025
Culture in AI	Social activity and cultural T2I evaluation	arXiv	2025
Envision	Causal world insight T2I evaluation	arXiv	2025
GenAI-Bench	Compositional text-to-visual generation	CVPR	2024
DPG-Bench	Long-prompt dense generation evaluation	arXiv	2024
PhyBench	Physical mechanics T2I evaluation	arXiv	2024
Commonsense T2I	Visual commonsense T2I evaluation	arXiv	2024
ConceptMix	Concept categorization T2I evaluation	arXiv	2024
T2I-Factual	Factual knowledge T2I evaluation	arXiv	2024
GenEval	Object-focused T2I alignment framework	NeurIPS	2023
TIFA	T2I faithfulness via question answering	ICCV	2023
HEIM	Holistic evaluation of text-to-image models	NeurIPS	2023
HPS v2	Human preference score correlation benchmark	arXiv	2023
Winoground	Contrastive compositional T2I evaluation	CVPR	2023
DrawBench	Photorealistic T2I quality assessment prompts	NeurIPS	2022
PartiPrompts	Content-rich T2I evaluation prompts	TMLR	2022
VISOR	Spatial relation T2I evaluation	arXiv	2022

Image Editing Benchmarks 40 benchmarks

Benchmark	Evaluation Focus	Venue	Year
PlanViz	Planning-oriented editing evaluation	arXiv	2026
LocateEdit	Localization instruction editing benchmark	arXiv	2026
VIBE	Visual instruction-based editing evaluation	arXiv	2026
Interaction Edit	MLLM-based object interaction editing benchmark	arXiv	2026
World-Shape	360° panoramic editing consistency evaluation	arXiv	2026
VDE Bench	Visual document editing evaluation	arXiv	2026
HYPE-EDIT	Reliability and robustness editing evaluation	arXiv	2026
EDIR	Fine-grained composed image editing evaluation	arXiv	2026
UniPic-3.0	Multi-image composition editing benchmark	arXiv	2026
UM-Text	Visual text and OCR editing benchmark	arXiv	2026
I2E	Interactive image-to-edit benchmark	arXiv	2026
MotionEdit	Motion-centered editing evaluation	arXiv	2026
KRIS-Bench	Next-level intelligent image editing assessment	NeurIPS	2025
CompBench	Complex instruction editing evaluation	arXiv	2025
ComplexBench	Multi-step chain robustness editing benchmark	arXiv	2025
Complex-Edit	Complexity-aware editing evaluation	arXiv	2025
GEdit-Bench	Realistic use-case editing evaluation	arXiv	2025
GPT-ImgEdit	Closed-model editing quality evaluation	arXiv	2025
IE-Bench	Human-aligned MOS editing evaluation	arXiv	2025
ImgEdit-Bench	Unified instruction-based editing evaluation	arXiv	2025
MCIE	MLLM-driven complex instruction editing benchmark	arXiv	2025
MMKE-Bench	Knowledge entity editing evaluation	arXiv	2025
PICABench	Physical realistic plausibility editing evaluation	arXiv	2025
PPTArena	Agentic PowerPoint editing evaluation	arXiv	2025
RefEdit	Reference-guided editing evaluation	arXiv	2025
SpotEdit	Visually-guided editing benchmark	arXiv	2025
UniREditBench	Reasoning-based editing evaluation	arXiv	2025
WEAVE	Interleaved in-context editing evaluation	arXiv	2025
WiseEdit	Cognition and creativity editing evaluation	arXiv	2025
EditScore	Reward model fidelity editing metric	arXiv	2025
EdiVal-Agent	Agentic multi-turn editing evaluation	arXiv	2025
AnyEdit	Unified high-quality image editing evaluation	CVPR	2024
I2EBench	16-dimensional comprehensive editing evaluation	arXiv	2024
GIE-Bench	Grounded image editing evaluation	arXiv	2024
FSMI-Edit	Localized mask-guided editing evaluation	arXiv	2024
EditVal	Automated edit success evaluation	arXiv	2023
Emu Edit Bench	7-task unified editing precision benchmark	arXiv	2023
PIE-Bench	Edit fidelity inversion evaluation	arXiv	2023
MagicBrush	Human-annotated editing evaluation	NeurIPS	2023
EditBench	Object rendering and inpainting benchmark	arXiv	2022

Established Quantitative Metrics

FIDFréchet Inception Distance — distributional image quality

ISInception Score — generation quality & diversity

CLIP ScoreText-image semantic alignment via CLIP

VQAScoreVQA-based compositional faithfulness

LPIPSLearned Perceptual Image Patch Similarity

HPSv2Human Preference Score v2

DreamSimHuman visual similarity via synthetic data

ImageRewardLearned human preference for T2I

TIFAT2I faithfulness via question answering

DSGDavidsonian Scene Graph evaluation

R-FIDReconstruction FID for tokenizers

SSIMStructural Similarity Index

T2I Training & Editing Datasets 12 datasets

Dataset	Scale	Type	Venue	Year
LAION-Aesthetics	120M	T2I (Aesthetic)	NeurIPS	2022
PixelProse	16M	T2I (Dense Captions)	arXiv	2024
PD12M	12M	T2I (Public Domain)	arXiv	2024
CC-12M	12M	T2I (Conceptual)	CVPR	2021
SAM	11M	T2I (Segmentation)	ICCV	2023
ByteMorph-6M	6M	Editing (Non-rigid)	arXiv	2025
TextAtlas5M	5M	T2I (Dense Text)	arXiv	2025
UltraEdit	4M	Editing (Fine-grained)	NeurIPS	2024
AnyEdit	2.5M	Editing (Unified)	CVPR	2024
ImgEdit	1.2M	Editing (Unified)	arXiv	2025
InstructPix2Pix	313K	Editing (Instructional)	CVPR	2022
MagicBrush	10K	Editing (Annotated)	NeurIPS	2023

T2I Surveys & Foundational References 2 surveys

Title	Domain	Venue	Year
Vision + Language Applications: A Survey	T2I / V&L	CVPRW	2023
Holistic Evaluation of Text-To-Image Models	Evaluation	NeurIPS	2023