Supported Models

SIE supports 85 pre-configured models across encode (embeddings), score (reranking), and extract (NER, relations, classification, vision). All models are quality-verified against MTEB benchmarks.

For model selection guidance, see Choosing a Model.

Encode Models (Embeddings)

Dense Embeddings

Model	Dims	Max Length	Languages	Bundle
`BAAI/bge-m3`	1024	8192	100+	default
`Alibaba-NLP/gte-Qwen2-1.5B-instruct`	1536	32768	Multi	default
`Alibaba-NLP/gte-Qwen2-7B-instruct`	3584	32000	Multi	sglang
`Alibaba-NLP/gte-multilingual-base`	768	8192	50+	default
`NovaSearch/stella_en_400M_v5`	1024	512	English	default
`NovaSearch/stella_en_1.5B_v5`	1024	512	English	default
`intfloat/e5-small-v2`	384	512	English	default
`intfloat/e5-base-v2`	768	512	English	default
`intfloat/e5-large-v2`	1024	512	English	default
`intfloat/multilingual-e5-large`	1024	512	100+	default
`intfloat/multilingual-e5-large-instruct`	1024	512	100+	default
`intfloat/e5-mistral-7b-instruct`	4096	4096	English	sglang
`sentence-transformers/all-MiniLM-L6-v2`	384	256	English	default
`nomic-ai/nomic-embed-text-v2-moe`	768	2048	English	default
`nvidia/NV-Embed-v2`	4096	32768	English	default
`nvidia/llama-embed-nemotron-8b`	4096	8192	English	sglang
`Salesforce/SFR-Embedding-Mistral`	4096	4096	English	sglang
`Salesforce/SFR-Embedding-2_R`	4096	8192	English	sglang
`GritLM/GritLM-7B`	4096	8192	English	default
`Linq-AI-Research/Linq-Embed-Mistral`	4096	32768	English	sglang
`google/embeddinggemma-300m`	768	2048	English	default
`Qwen/Qwen3-Embedding-0.6B`	1024	32768	Multi	default
`Qwen/Qwen3-Embedding-4B`	2560	32768	Multi	sglang

Sparse Embeddings

Model	Vocab Size	Max Length	Bundle
`BAAI/bge-m3`	250002	8192	default
`naver/splade-v3`	30522	512	default
`naver/splade-cocondenser-selfdistil`	30522	512	default
`prithivida/Splade_PP_en_v2`	30522	256	default
`rasyosef/splade-mini`	30522	128	default
`ibm-granite/granite-embedding-30m-sparse`	30522	512	default
`opensearch-project/opensearch-neural-sparse-encoding-v1`	—	—	default
`opensearch-project/opensearch-neural-sparse-encoding-v2-distill`	—	—	default
`opensearch-project/opensearch-neural-sparse-encoding-doc-v2-distill`	—	—	default
`opensearch-project/opensearch-neural-sparse-encoding-doc-v2-mini`	—	—	default
`opensearch-project/opensearch-neural-sparse-encoding-doc-v3-distill`	—	—	default
`opensearch-project/opensearch-neural-sparse-encoding-doc-v3-gte`	—	—	default

Multi-Vector (ColBERT)

Model	Token Dim	Max Length	Bundle
`jinaai/jina-colbert-v2`	128	8192	default
`colbert-ir/colbertv2.0`	128	512	default
`answerdotai/answerai-colbert-small-v1`	96	512	default
`mixedbread-ai/mxbai-colbert-large-v1`	128	512	default
`mixedbread-ai/mxbai-edge-colbert-v0-32m`	128	512	default
`lightonai/GTE-ModernColBERT-v1`	128	8192	default
`lightonai/Reason-ModernColBERT`	128	8192	default
`nvidia/llama-nemoretriever-colembed-3b-v1`	1024	512	default

Vision & Multimodal

Model	Dims	Resolution	Task	Bundle
`openai/clip-vit-base-patch32`	512	224	Image+text embedding	default
`openai/clip-vit-large-patch14`	768	224	Image+text embedding	default
`laion/CLIP-ViT-B-32-laion2B-s34B-b79K`	512	224	Image+text embedding	default
`laion/CLIP-ViT-H-14-laion2B-s32B-b79K`	1024	224	Image+text embedding	default
`google/siglip-so400m-patch14-224`	1152	224	Image+text embedding	default
`google/siglip-so400m-patch14-384`	1152	384	Image+text embedding	default
`vidore/colpali-v1.3-hf`	128	1024	Document vision (ColBERT)	default
`vidore/colqwen2.5-v0.2`	128	1024	Document vision (ColBERT)	default

Score Models (Reranking)

Cross-Encoder Rerankers

Model	Max Length	Languages	Bundle
`BAAI/bge-reranker-base`	512	English	default
`BAAI/bge-reranker-large`	512	English	default
`BAAI/bge-reranker-v2-m3`	8192	100+	default
`jinaai/jina-reranker-v2-base-multilingual`	8192	100+	default
`mixedbread-ai/mxbai-rerank-base-v2`	8192	English	default
`mixedbread-ai/mxbai-rerank-large-v2`	8192	English	default
`Alibaba-NLP/gte-reranker-modernbert-base`	8192	English	default
`cross-encoder/ms-marco-MiniLM-L-6-v2`	512	English	default
`cross-encoder/ms-marco-MiniLM-L-12-v2`	512	English	default

Multi-Vector Rerankers (via MaxSim)

ColBERT models can also be used for reranking via MaxSim scoring. See the Multi-Vector section above.

Extract Models

Named Entity Recognition (GLiNER)

Model	Languages	Notes	Bundle
`urchade/gliner_small-v2.1`	English	Small	gliner
`urchade/gliner_medium-v2.1`	English	Medium	gliner
`urchade/gliner_large-v2.1`	English	Large	gliner
`urchade/gliner_multi-v2.1`	Multilingual	Recommended	gliner
`urchade/gliner_multi_pii-v1`	Multilingual	PII detection	gliner
`EmergentMethods/gliner_large_news-v2.1`	English	News domain	gliner
`Ihor/gliner-biomed-large-v1.0`	English	Biomedical	gliner
`NeuML/gliner-bert-tiny`	English	Tiny, fastest	gliner
`numind/NuNER_Zero`	English	Zero-shot	gliner
`numind/NuNER_Zero-span`	English	Span extraction	gliner

Relation Extraction (GLiREL)

Model	Notes	Bundle
`jackboyla/glirel-large-v0`	Zero-shot relation extraction	gliner

Classification

Model	Approach	Max Length	Bundle
`knowledgator/gliclass-small-v1.0`	GLiClass	512	gliner
`knowledgator/gliclass-base-v1.0`	GLiClass	512	gliner
`MoritzLaurer/deberta-v3-base-zeroshot-v2.0`	NLI	512	default
`MoritzLaurer/deberta-v3-large-zeroshot-v2.0`	NLI	512	default

Vision (Document Understanding)

Model	Tasks	Bundle
`microsoft/Florence-2-base`	OCR, caption, detection	florence2
`microsoft/Florence-2-large`	OCR, caption, detection	florence2
`microsoft/Florence-2-base-ft`	OCR, caption, detection	florence2
`mynkchaudhry/Florence-2-FT-DocVQA`	Document QA	florence2
`naver-clova-ix/donut-base-finetuned-docvqa`	Document QA	florence2
`naver-clova-ix/donut-base-finetuned-cord-v2`	Receipt parsing	florence2
`naver-clova-ix/donut-base-finetuned-rvlcdip`	Document classification	florence2

Object Detection

Model	Notes	Bundle
`IDEA-Research/grounding-dino-tiny`	Smaller, faster	default
`IDEA-Research/grounding-dino-base`	Higher quality	default
`google/owlv2-base-patch16-ensemble`	OWL-ViT based	default

Bundle Summary

Models require specific bundles due to dependency conflicts:

Bundle	Image Tag	Models
`default`	`cuda12-default`	Most models (embeddings, rerankers, ColBERT, NLI classification)
`gliner`	`cuda12-gliner`	GLiNER, GLiREL, GLiClass, NuNER models
`sglang`	`cuda12-sglang`	LLM-based models (e5-mistral-7b, Nemotron, SFR, etc.)
`florence2`	`cuda12-florence2`	Florence-2, Donut vision models

See Bundles for details.

Listing Models at Runtime

You can programmatically query which models are available on a running SIE instance:

Python
TypeScript

from sie_sdk import SIEClient
from sie_sdk.types import Item

client = SIEClient("http://localhost:8080")

# List available models
models = client.list_models()
for model in models:
    print(f"{model.name}: {model.dims} dims, loaded={model.loaded}")

import { SIEClient } from "@sie/sdk";

const client = new SIEClient("http://localhost:8080");

const models = await client.listModels();
for (const model of models) {
  console.log(`${model.name}: ${model.dims?.dense} dims, loaded=${model.loaded}`);
}

await client.close();

Adding Custom Models

SIE can serve any HuggingFace model that fits an existing adapter. See Adding Models.