laion/CLIP-ViT-H-14-laion2B-s32B-b79K

1. Model Details 3. Training Details 4. Evaluation 5. Acknowledgements 6. Citation 7. How To Get Started With the Model

Architecture

CLIP

Parameters

986M

Tasks

Encode

Outputs

Dense

Dimensions

Dense: 1,024

Max Sequence Length

77 tokens

License

mit

Benchmarks

general retrieval en

Image-to-text retrieval: retrieve captions from images

Corpus: 31,783 Queries: 1,000

Quality

ndcg at 10 0.8624

map at 10 0.7856

mrr at 10 0.9488

Performance L4-SPOT b1 c8

Corpus TPS 181

Corpus p50 533.4ms

Query TPS 10

Query p50 625.9ms

Performance L4 b1 c16

Corpus TPS 462

Corpus p50 474.3ms

Query TPS 23

Query p50 449.8ms