LLM-3D Understanding & Generation

Multi-modal large language models for 3D scene understanding, spatial reasoning, point cloud comprehension, embodied agents, and language-driven 3D generation.

⌘K

3D Understanding via LLM (2022–2026) 44+ papers

Model	Institute	Publication	Year
SpatialRGPT	UCSD	NeurIPS	2024
LLaVA-3D	HKU	arXiv	2025
Seg3D	—	arXiv	2025
3D-LLM	UCLA	NeurIPS	2023
PointLLM	CUHK	ECCV	2024
3D-LLaVA	U of Adelaide	CVPR	2025
LEO	BIGAI	ICML	2024
GPT4Scene	HKU	arXiv	2025
Robin3D	HKU	ICCV	2025
ShapeLLM	XJTU	arXiv	2024
SpatialVLM	Google DeepMind	CVPR	2024
Spatial-MLLM	THU	arXiv	2025
MM-Spatial	—	arXiv	2025
Part-X-MLLM	—	ICLR	2026
3D-R1	PKU	arXiv	2025
LEO-VL	BIGAI	arXiv	2025
Video-3D LLM	CUHK	CVPR	2025
PerLA	FBK	CVPR	2025
Chat-Scene	ZJU	NeurIPS	2024
LL3DA	Fudan	arXiv	2023
Uni3D	BAAI	ICLR	2024
MiniGPT-3D	HUST	ACM MM	2024
G2VLM	Shanghai AI Lab	arXiv	2025
Ross3D	CASIA	arXiv	2025
SplatTalk	GIT	arXiv	2025
GreenPLM	HUST	arXiv	2024
Descrip3D	Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions	arXiv	2025
VLM-3R	VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction	arXiv	2025
HMR3D	HMR3D: Hierarchical Multimodal Representations for 3D Scene Understanding	arXiv	2025
UniVLG	UniVLG: Unifying 2D and 3D Vision-Language Understanding and Grounding	arXiv	2025
Pts3D-LLM	Pts3D-LLM: 3D Point Cloud Features for Multimodal Large Language Models	arXiv	2025
Embodied-R	Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in LLMs	arXiv	2025

3D Understanding via Foundation Models (CLIP, SAM) 28+ papers

Model	Institute	Publication	Year
OpenScene	ETHz	CVPR	2023
LERF	UC Berkeley	ICCV	2023
ConceptFusion	MIT	RSS	2023
OpenMask3D	ETH	NeurIPS	2023
CLIP2Scene	HKU	CVPR	2023
PLA	HKU	CVPR	2023
Contrastive Lift	Oxford-VGG	NeurIPS	2023
SAGA	SJTU	AAAI	2025
Lexicon3D	UIUC	NeurIPS	2024
CrossOver	Stanford	CVPR	2025
Any2Point	Shanghai AI Lab	ECCV	2024
CoDA / CoDAv2	HKUST	NeurIPS / TPAMI	2023–25
POMA-3D	Imperial	arXiv	2025
Diff2Scene	CMU	ECCV	2024
3D-OVS	NTU	NeurIPS	2023
Open-Vocab SAM3D	Open-Vocabulary SAM3D: Understand Any 3D Scene	arXiv	2025
Segment then Splat	Segment then Splat: Open-Vocabulary Segmentation on Gaussian Splatting	NeurIPS	2025
Semantic Gaussians	Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting	ECCV	2024

3D Reasoning 8+ papers

Model	Institute	Publication	Year
Situation3D	UIUC	CVPR	2024
MSR3D	BIGAI	NeurIPS	2024
3D-CLR	UCLA	CVPR	2023
Transcribe3D	TTI Chicago	CoRL	2023
RoboTracer	BUAA	arXiv	2025
RoboRefer	BUAA	arXiv	2025
SceneCOT	BIGAI	arXiv	2025

LLM-Driven 3D Generation 15+ papers

Model	Institute	Publication	Year
LLaMA-Mesh	THU / NVIDIA	arXiv	2024
MeshGPT	TUM	arXiv	2023
ShapeGPT	Fudan	arXiv	2023
3D-GPT	ANU	arXiv	2023
DreamLLM	MEGVII	arXiv	2023
ChatAvatar	Deemos Tech	ACM TOG	2023
LLMR	MIT	arXiv	2023
MeshGPT-2	MeshGPT-2: Scalable Autoregressive 3D Mesh Generation	arXiv	2025
MeshAnything	MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers	arXiv	2024
CAD-GPT	CAD-GPT: Synthesising CAD Construction Sequences with Spatial Reasoning-Enhanced Multimodal LLMs	NeurIPS	2024
CG-MLLM	CG-MLLM: A Multi-modal Large Language Model for 3D Captioning and Generation	arXiv	2026
Ex-Omni	Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models	arXiv	2026

3D Embodied Agents 15+ papers

Model	Institute	Publication	Year
RT-2	Google DeepMind	arXiv	2023
RT-1	Google	arXiv	2022
VoxPoser	Stanford	arXiv	2023
SayPlan	QUT	CoRL	2023
NaviLLM	CUHK	CVPR	2024
VeBrain	Shanghai AI Lab	arXiv	2025
3DLLM-Mem	UCLA/Google	NeurIPS	2025
UniHSI	Shanghai AI Lab	arXiv	2023
Dobb-E	NYU	arXiv	2023
LLM-Planner	Ohio State	ICCV	2023
NLMap-SayCan	Google	ICRA	2023

3D Benchmarks 20+ benchmarks

Benchmark	Institute	Publication	Year
ScanQA	RIKEN AIP	CVPR	2023
SQA3D	BIGAI	ICLR	2023
ScanRefer	TUM	ECCV	2020
EmbodiedScan	Shanghai AI Lab	arXiv	2023
SceneVerse	BIGAI	ECCV	2024
MMScan	Shanghai AI Lab	arXiv	2024
3D-GRAND	UMich	arXiv	2024
Reason3D	UC Merced	3DV	2025
M3DBench	Fudan	arXiv	2023
Space3D-Bench	ETHz	arXiv	2024
SpaCE-10	SJTU	arXiv	2025
Hypo3D	Imperial	ICML	2025
Beacon3D	BIGAI	CVPR	2025
SPAR	Fudan	arXiv	2025
Anywhere3D	BIGAI	NeurIPS	2025