跳转到主要内容

安装

拉取 Docker 镜像

从 Docker Hub 拉取最新 NexaSDK Docker 镜像:
bash
docker pull nexa4ai/nexasdk:latest

使用模式

NexaSDK Docker 支持两种使用模式:服务器模式(用于 REST API)与交互式 CLI 模式(直接推理)。

服务器模式(后台运行)

以服务器模式运行 NexaSDK,暴露 REST API 端点,并在后台运行:
bash
export NEXA_TOKEN="YOUR_LONG_TOKEN_HERE"
docker run --rm -d -p 18181:18181 --privileged \
  -v /path/to/data:/data \
  -v /etc/machine-id:/etc/machine-id:ro \
  -e NEXA_TOKEN \
  nexa4ai/nexasdk serve
--privileged 标志在 ARM64 系统上启用 NPU 访问;对于 x64 系统,如不使用 NPU,可省略该标志。将 YOUR_LONG_TOKEN_HERE 替换为你实际的 Nexa 令牌。你可以在 sdk.nexa.ai 创建账号并在 Deployment → Create Token 生成令牌。
服务器默认可通过 http://localhost:18181 访问。详细 API 文档参见 REST API

CLI 模式(交互式)

以交互式 CLI 模式运行 NexaSDK,直接进行模型推理:
bash
export NEXA_TOKEN="YOUR_LONG_TOKEN_HERE"
docker run --rm -it --privileged \
  -v /path/to/data:/data \
  -v /etc/machine-id:/etc/machine-id:ro \
  -e NEXA_TOKEN \
  nexa4ai/nexasdk infer NexaAI/Granite-4.0-h-350M-NPU
-it 标志用于启用交互式模式。将 NexaAI/Granite-4.0-h-350M-NPU 替换为任意受支持的模型名称。

支持的模型

Linux ARM64(NPU 加速)

以下模型在 Linux ARM64 上支持 NPU 加速(Dragonwing IQ9):

语言模型(LLM)

视觉语言模型(VLM)

嵌入模型(Embeddings)

重排模型(Reranking)

计算机视觉(CV)

自动语音识别(ASR)

Linux x64

在 Linux x64 系统上,你可以使用 GGUF 格式模型。推荐模型包括:

语言模型(LLM)

视觉语言模型(VLM)

关于 NPU 模型与访问令牌的更多信息,参见 NPU 模型指南。关于 GGUF 模型,参见 GGUF 模型指南

后续步骤