Editing, Personalization & Prompts

Text-guided image editing, subject-driven personalization, and prompt engineering optimization techniques.

⌘K

Text-Guided Image Editing & Manipulation 34+ papers

Model	Full Title	Venue	Year
WorldEdit	WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark	arXiv	2026
Agent Banana	Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling	arXiv	2026
Skywork UniPic 3.0	Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling	arXiv	2026
MIE-UMM	Towards Generalized Multi-Image Editing for Unified Multimodal Models	arXiv	2026
SliderEdit	SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control	arXiv	2025
UltraEdit	UltraEdit: Instruction-Based Fine-Grained Image Editing at Scale	arXiv	2024
FlexEdit	FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing	arXiv	2025
MagicBrush	MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing	NeurIPS	2024
OmniEdit	OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision	arXiv	2025
ICEdit	ICEdit: Instruction-based Image Editing via In-Context Learning with Multimodal Models	arXiv	2025
Step1X-Edit	Step1X-Edit: A Practical Framework for General Image Editing	StepFun	2025
In-Context Edit	Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer	arXiv	2025
SmartEdit	Exploring Complex Instruction-based Image Editing with Multimodal LLMs	CVPR	2024
MultiEdits	Simultaneous Multi-Aspect Editing with Text-to-Image Diffusion Models	arXiv	2024
StyleShot	A Snapshot on Any Style (Style Transfer)	arXiv	2024
Instruct-Imagen	Image Generation with Multi-modal Instruction	CVPR	2024
AnimateDiff	Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning	arXiv	2023
DreamBooth	Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation	CVPR	2023
Break-A-Scene	Extracting Multiple Concepts from a Single Image	SIGGRAPH Asia	2023
MasaCtrl	Tuning-free Mutual Self-Attention Control for Consistent Image Synthesis and Editing	arXiv	2023
Delta Denoising Score	Delta Denoising Score	arXiv	2023
DiffEdit	Diffusion-based Semantic Image Editing with Mask Guidance	ICLR	2023
Plug-and-Play Diffusion	Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation	arXiv	2022
Null-text Inversion	Null-text Inversion for Editing Real Images using Guided Diffusion Models	arXiv	2022
InstructPix2Pix	Learning to Follow Image Editing Instructions	arXiv	2022
Blended Diffusion	Text-driven Editing of Natural Images	CVPR	2022
DiffusionCLIP	Text-Guided Diffusion Models for Robust Image Manipulation	CVPR	2022
ManiTrans	Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment	CVPR	2022
CLIPstyler	Image Style Transfer with a Single Text Condition	CVPR	2022
Text2LIVE	Text-Driven Layered Image and Video Editing	arXiv	2022
HairCLIP	Design Your Hair by Text and Reference Image	CVPR	2022
CLIP-NeRF	Text-and-Image Driven Manipulation of Neural Radiance Fields	CVPR	2022
LANIT	Language-Driven Image-to-Image Translation for Unlabeled Data	arXiv	2022
StyleCLIP	Text-Driven Manipulation of StyleGAN Imagery	ICCV	2021
Talk-to-Edit	Fine-Grained Facial Editing via Dialog	ICCV	2021
Paint by Word	Paint by Word	arXiv	2021
Lightweight T2I Manipulation	Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation	NeurIPS	2020

Subject-Driven & Personalized Generation 13+ papers

Model	Full Title	Venue	Year
MAGREF	Masked Guidance for Any-Reference Video Generation	arXiv	2025
Gen4Gen	Generative Data Pipeline for Generative Multi-Concept Composition	arXiv	2024
MM-Diff	High-Fidelity Image Personalization via Multi-Modal Condition Integration	arXiv	2024
ViCo	Plug-and-play Visual Condition for Personalized Text-to-image Generation	arXiv	2023
DisenBooth	Disentangled Parameter-Efficient Tuning for Subject-Driven Text-to-Image Generation	arXiv	2023
ELITE	Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation	arXiv	2023
InstantBooth	Personalized Text-to-Image Generation without Test-Time Finetuning	arXiv	2023
Subject-driven T2I	Subject-driven Text-to-Image Generation via Apprenticeship Learning	arXiv	2023
Controllable Textual Inversion	Controllable Textual Inversion for Personalized Text-to-Image Generation	arXiv	2023
Lego	Learning to Disentangle and Invert Concepts Beyond Object Appearance	arXiv	2023
P+	Extended Textual Conditioning in Text-to-Image Generation	arXiv	2023
Taming Encoder	Taming Encoder for Zero Fine-tuning Image Customization with T2I Diffusion Models	arXiv	2023
Instance-Conditioned GAN	Instance-Conditioned GAN	NeurIPS	2021

Prompt Engineering & Optimization 8 papers

Title	Focus	Venue	Year
PromptCharm: T2I Generation through Multi-modal Prompting and Refinement	Multi-modal Prompting	CHI	2024
Automated Black-box Prompt Engineering for Personalized T2I	Black-box Optimization	arXiv	2024
BeautifulPrompt: Towards Automatic Prompt Engineering for T2I	Automatic Prompt Engineering	EMNLP	2023
NeuroPrompts: Adaptive Framework to Optimize Prompts for T2I	Prompt Optimization	arXiv	2023
Optimizing Prompts for Text-to-Image Generation	Prompt Optimization	arXiv	2022
Best Prompts for Text-to-Image Models and How to Find Them	Aesthetic Prompt Search	arXiv	2022
A Taxonomy of Prompt Modifiers for Text-To-Image Generation	Prompt Taxonomy	arXiv	2022
Design Guidelines for Prompt Engineering T2I Generative Models	Design Guidelines	CHI	2022