Z-AI / Models

Models & providers

Every model the gateway can route to today. To unlock a provider's models, paste its key in Providers — Z-AI uses BYOK and pays your provider directly, with no markup.

Pricing

Z-AI charges no markup on tokens. You pay your provider directly via your BYOK key. The gateway tracks tokens/cost per call so you can see exactly what every request costs, broken down by model, in real time.

See spend per key in Keys and per-call breakdown in Logs.

OpenAI · 8 models

GPT-5 family + still-supported GPT-4o and o1.

Get key

openai/gpt-5.5

openai/gpt-5.4

openai/gpt-5.4-minidefault

openai/gpt-5.4-nano

openai/gpt-4o

openai/gpt-4o-mini

openai/o1-preview

openai/o1-mini

Anthropic · 7 models

Claude 4 generation plus legacy 3.5 snapshots.

Get key

anthropic/claude-opus-4-8

anthropic/claude-sonnet-4-6

anthropic/claude-haiku-4-5

anthropic/claude-haiku-4-5-20251001pinned

anthropic/claude-3-5-sonnet-20241022

anthropic/claude-3-5-haiku-20241022

anthropic/claude-3-opus-20240229

Google Gemini · 7 models

Gemini 3.x frontier + 2.5 stable line.

Get key

gemini/gemini-3.1-pro

gemini/gemini-3.5-flash

gemini/gemini-3-flash

gemini/gemini-3.1-flash-lite

gemini/gemini-2.5-pro

gemini/gemini-2.5-flash

gemini/gemini-2.5-flash-lite

Groq · 7 models

LPU inference — extreme tokens/sec, low latency.

Get key

groq/llama-3.3-70b-versatile

groq/llama-3.1-8b-instant

groq/openai/gpt-oss-120b

groq/openai/gpt-oss-20b

groq/meta-llama/llama-4-scout-17b-16e-instruct

groq/qwen/qwen3-32b

groq/moonshotai/kimi-k2-instruct-0905

Mistral · 8 models

Open-weights leader. Codestral / Devstral for code.

Get key

mistral/mistral-medium-latest

mistral/mistral-small-latest

mistral/mistral-large-latest

mistral/magistral-medium-latest

mistral/ministral-8b-latest

mistral/ministral-3b-latest

mistral/codestral-latest

mistral/devstral-medium-latest

Together AI · 11 models

DeepSeek, Kimi, MiniMax, Qwen — frontier OSS at scale.

Get key

together/deepseek-ai/DeepSeek-V4-Pro

together/moonshotai/Kimi-K2.6

together/MiniMaxAI/MiniMax-M2.7

together/zai-org/GLM-5.1

together/Qwen/Qwen3.6-Plus

together/Qwen/Qwen3.5-397B-A17B

together/Qwen/Qwen3-235B-A22B-Instruct-2507-tput

together/openai/gpt-oss-120b

together/openai/gpt-oss-20b

together/meta-llama/Llama-3.3-70B-Instruct-Turbo

together/deepcogito/cogito-v2-1-671b

Fireworks AI · 11 models

Same OSS frontier, separate serverless backend.

Get key

fireworks/accounts/fireworks/models/deepseek-v4-pro

fireworks/accounts/fireworks/models/deepseek-v4-flash

fireworks/accounts/fireworks/models/kimi-k2p6

fireworks/accounts/fireworks/models/minimax-m2p7

fireworks/accounts/fireworks/models/glm-5p1

fireworks/accounts/fireworks/models/qwen3p6-plus

fireworks/accounts/fireworks/models/gpt-oss-120b

fireworks/accounts/fireworks/models/gpt-oss-20b

fireworks/accounts/fireworks/models/llama-v3p3-70b-instruct

fireworks/accounts/fireworks/models/qwen3-235b-a22b-instruct-2507

fireworks/accounts/fireworks/models/qwen3-coder-480b-a35b-instruct

Nexula AIBOM · 1 model

Zyora AI Labs' in-house security model (AIBOM-8B). India-first.

Get key

nexula/aibom-8b

Custom / self-hosted endpoints

Any OpenAI-compatible endpoint (vLLM, Ollama, llama.cpp, LM Studio, sglang, Modal endpoints) works as a custom provider — paste the base_url in Providers and Z-AI will route to it.

Next: Bring your own keys