Models

SIE supports 80+ encode models across dense, sparse, multi-vector, and multimodal categories. Model performance varies by task. Run mise run eval <model> -t <task> to benchmark on your data.

Dense Models

General Purpose

Model	Dims	Max Length	Languages	Notes
`BAAI/bge-m3`	1024	8192	100+	Also supports sparse, multivector
`Alibaba-NLP/gte-Qwen2-1.5B-instruct`	1536	32768	Multilingual	Long context, instruction
`Alibaba-NLP/gte-Qwen2-7B-instruct`	3584	32000	Multilingual	Largest quality
`Alibaba-NLP/gte-multilingual-base`	768	8192	50+	Efficient multilingual
`NovaSearch/stella_en_400M_v5`	1024	512	English	Balanced
`NovaSearch/stella_en_1.5B_v5`	1024	512	English	High quality

E5 Family

Model	Dims	Max Length	Notes
`intfloat/e5-small-v2`	384	512	Fast, small
`intfloat/e5-base-v2`	768	512	Balanced
`intfloat/e5-large-v2`	1024	512	High quality
`intfloat/multilingual-e5-large`	1024	512	Multilingual
`intfloat/multilingual-e5-large-instruct`	1024	512	Instruction-tuned
`intfloat/e5-mistral-7b-instruct`	4096	4096	LLM-based

Sentence Transformers

Model	Dims	Max Length	Notes
`sentence-transformers/all-MiniLM-L6-v2`	384	256	Fast baseline

Specialized

Model	Dims	Max Length	Notes
`nvidia/NV-Embed-v2`	4096	32768	NVIDIA optimized
`nvidia/llama-embed-nemotron-8b`	4096	8192	LLM-based
`Salesforce/SFR-Embedding-Mistral`	4096	4096	Salesforce
`Salesforce/SFR-Embedding-2_R`	4096	8192	Latest version
`GritLM/GritLM-7B`	4096	8192	Generative + embedding
`Linq-AI-Research/Linq-Embed-Mistral`	4096	32768	Long context
`google/embeddinggemma-300m`	768	2048	Gemma-based

Qwen Models

Model	Dims	Max Length	Notes
`Qwen/Qwen3-Embedding-0.6B`	1024	32768	Small, fast
`Qwen/Qwen3-Embedding-4B`	2560	32768	High quality

Sparse Models

Model	Vocab Size	Max Length	Notes
`BAAI/bge-m3`	250002	8192	Multi-output (also dense)
`naver/splade-v3`	30522	512	High-quality sparse
`naver/splade-cocondenser-selfdistil`	30522	512	Balanced
`prithivida/Splade_PP_en_v2`	30522	256	English
`rasyosef/splade-mini`	30522	128	Small
`ibm-granite/granite-embedding-30m-sparse`	30522	512	IBM

OpenSearch Neural Sparse

Model	Notes
`opensearch-project/opensearch-neural-sparse-encoding-v1`	Original
`opensearch-project/opensearch-neural-sparse-encoding-v2-distill`	Distilled
`opensearch-project/opensearch-neural-sparse-encoding-doc-v2-distill`	Document-side
`opensearch-project/opensearch-neural-sparse-encoding-doc-v2-mini`	Small
`opensearch-project/opensearch-neural-sparse-encoding-doc-v3-distill`	V3 distilled
`opensearch-project/opensearch-neural-sparse-encoding-doc-v3-gte`	GTE-based

Multi-Vector Models (ColBERT)

Model	Token Dim	Max Length	Notes
`jinaai/jina-colbert-v2`	128	8192	Long context
`answerdotai/answerai-colbert-small-v1`	128	512	Fast, small
`colbert-ir/colbertv2.0`	128	512	Original ColBERT
`mixedbread-ai/mxbai-colbert-large-v1`	1024	512	Large dimension
`mixedbread-ai/mxbai-edge-colbert-v0-32m`	128	512	Edge/mobile
`lightonai/GTE-ModernColBERT-v1`	128	8192	Modern architecture
`lightonai/Reason-ModernColBERT`	128	8192	Reasoning-focused
`nvidia/llama-nemoretriever-colembed-3b-v1`	1024	512	NVIDIA

Vision & Multimodal Models

CLIP Models

Model	Dims	Resolution	Notes
`openai/clip-vit-base-patch32`	512	224	Fast baseline
`openai/clip-vit-large-patch14`	768	224	Higher quality
`laion/CLIP-ViT-B-32-laion2B-s34B-b79K`	512	224	LAION trained
`laion/CLIP-ViT-H-14-laion2B-s32B-b79K`	1024	224	Large

SigLIP Models

Model	Dims	Resolution	Notes
`google/siglip-so400m-patch14-224`	1152	224	Fast
`google/siglip-so400m-patch14-384`	1152	384	Higher resolution

Document Vision (ColPali)

Model	Token Dim	Resolution	Notes
`vidore/colpali-v1.3-hf`	128	1024	Document pages
`vidore/colqwen2.5-v0.2`	128	1024	Qwen-based

Bundle Compatibility

Models are grouped into bundles based on dependency compatibility:

Bundle	Models	Notes
`default`	Most models	Standard dependencies
`legacy`	Older transformers	Compatibility mode
`gte-qwen2`	GTE-Qwen2 models	Qwen dependencies
`sglang`	LLM-based models	SGLang runtime
`florence2`	Florence-2	Vision dependencies

Start with a specific bundle:

# Docker (recommended)
docker run -p 8080:8080 ghcr.io/superlinked/sie:default

# Or with GPU
docker run --gpus all -p 8080:8080 ghcr.io/superlinked/sie:default

from sie_sdk import SIEClient
from sie_sdk.types import Item

client = SIEClient("http://localhost:8080")

# List available models
models = client.list_models()
for model in models:
    print(f"{model.name}: {model.dims} dims, loaded={model.loaded}")

# Use any model from the catalog
result = client.encode("BAAI/bge-m3", Item(text="Hello world"))

import { SIEClient } from "@sie/sdk";

const client = new SIEClient("http://localhost:8080");

// List available models
const models = await client.listModels();
for (const model of models) {
  console.log(`${model.name}: ${model.dims?.dense} dims, loaded=${model.loaded}`);
}

// Use any model from the catalog
const result = await client.encode("BAAI/bge-m3", { text: "Hello world" });

await client.close();

Adding Custom Models

See Adding Models for configuring new models.

What’s Next

Evals - benchmark models on your tasks