HRS-Bench

Data Paper GitHub

Holistic, Reliable and Scalable Benchmark for Text-to-Image Models:

Holistic skills evaluation. Rather than focus on isolated metrics such as accuracy, we measure 13 skills, which could be categorized into five critical skills; accuracy, robustness, generalization, fairness, and bias.
Broad scenarios coverage. HRS-Bench covers 50 applications, e.g., fashion, animals, transportation, food, and clothes.
Standardization. We propose a unified benchmark, where we fairly evaluate the existing models across a wide range of metrics.
Holistic prompts generation.

9 Models

DALL.E V2

Stable-Diffusion V1

Structure-Difussion

Stable-Diffusion V2

CogView V2

Glide

Paella

minDALL-E

DALLEMini

50 Scenarios

Basic Scenarios

Sequential Scenarios

Autonomous Driving
Story Telling
Gaming
Gesture Language
Movies

Creative Scenarios

Logo/Brand
Billboard/Advs
Fashoin/Clothes
Product Design
Art
Interior Design
Emotions
Illustration/Teaching
Buety and Health

17 Metrics

Accuracy

FID
IS
Precision
Recall
F1
NED
CER
WER
CLIP-Score
Classification Accuracy
BLEU
CIDEr
TIT-Align
I2I-Align

Robustness

CLIP-Score
Spatial Accuracy
Size Accuracy
BLEU
CIDEr
TIT-Align
I2I-Align

Generalization

CLIP-Score
BLEU
CIDEr
TIT-Align
I2I-Align

Fairness

CLIP-Score
TIT-Align

Bias

Occurrence
Co-Occurrence