快速开始

教程视频

安装

拉取 Docker 镜像

从 Docker Hub 拉取最新 NexaSDK Docker 镜像：

bash

docker pull nexa4ai/nexasdk:latest

使用模式

NexaSDK Docker 支持两种使用模式：服务器模式（用于 REST API）与交互式 CLI 模式（直接推理）。

服务器模式（后台运行）

以服务器模式运行 NexaSDK，暴露 REST API 端点，并在后台运行：

bash

export NEXA_TOKEN="YOUR_LONG_TOKEN_HERE"
docker run --rm -d -p 18181:18181 --privileged \
  -v /path/to/data:/data \
  -v /etc/machine-id:/etc/machine-id:ro \
  -e NEXA_TOKEN \
  nexa4ai/nexasdk serve

--privileged 标志在 ARM64 系统上启用 NPU 访问；对于 x64 系统，如不使用 NPU，可省略该标志。将 YOUR_LONG_TOKEN_HERE 替换为你实际的 Nexa 令牌。你可以在 sdk.nexa.ai 创建账号并在 Deployment → Create Token 生成令牌。

服务器默认可通过 http://localhost:18181 访问。详细 API 文档参见 REST API。

CLI 模式（交互式）

以交互式 CLI 模式运行 NexaSDK，直接进行模型推理：

bash

export NEXA_TOKEN="YOUR_LONG_TOKEN_HERE"
docker run --rm -it --privileged \
  -v /path/to/data:/data \
  -v /etc/machine-id:/etc/machine-id:ro \
  -e NEXA_TOKEN \
  nexa4ai/nexasdk infer NexaAI/Granite-4.0-h-350M-NPU

-it 标志用于启用交互式模式。将 NexaAI/Granite-4.0-h-350M-NPU 替换为任意受支持的模型名称。

支持的模型

Linux ARM64（NPU 加速）

以下模型在 Linux ARM64 上支持 NPU 加速（Dragonwing IQ9）：

语言模型（LLM）

视觉语言模型（VLM）

NexaAI/OmniNeural-4B

嵌入模型（Embeddings）

重排模型（Reranking）

NexaAI/jina-v2-rerank-npu

计算机视觉（CV）

自动语音识别（ASR）

NexaAI/parakeet-tdt-0.6b-v3-npu

Linux x64

在 Linux x64 系统上，你可以使用 GGUF 格式模型。推荐模型包括：

语言模型（LLM）

视觉语言模型（VLM）

关于 NPU 模型与访问令牌的更多信息，参见 NPU 模型指南。关于 GGUF 模型，参见 GGUF 模型指南。

后续步骤

REST API

了解如何使用 REST API 端点（聊天补全、嵌入、重排等）。

NPU 模型

探索适用于 Qualcomm 设备的 NPU 优化模型全集。

Was this page helpful?

Yes

Nexa CLI 使用

Android SDK

Linux Docker

Python 库

iOS & macOS SDK

社区

快速开始

教程视频

安装

拉取 Docker 镜像

使用模式

服务器模式（后台运行）

CLI 模式（交互式）

支持的模型

Linux ARM64（NPU 加速）

语言模型（LLM）

视觉语言模型（VLM）

嵌入模型（Embeddings）

重排模型（Reranking）

计算机视觉（CV）

自动语音识别（ASR）

Linux x64

语言模型（LLM）

视觉语言模型（VLM）

后续步骤

REST API

NPU 模型

快速开始

Nexa CLI 使用

Android SDK

Linux Docker

Python 库

iOS & macOS SDK

社区

​教程视频

​安装

​拉取 Docker 镜像

​使用模式

​服务器模式（后台运行）

​CLI 模式（交互式）

​支持的模型

​Linux ARM64（NPU 加速）

​语言模型（LLM）

​视觉语言模型（VLM）

​嵌入模型（Embeddings）

​重排模型（Reranking）

​计算机视觉（CV）

​自动语音识别（ASR）

​Linux x64

​语言模型（LLM）

​视觉语言模型（VLM）

​后续步骤

REST API

NPU 模型

教程视频

安装

拉取 Docker 镜像

使用模式

服务器模式（后台运行）

CLI 模式（交互式）

支持的模型

Linux ARM64（NPU 加速）

语言模型（LLM）

视觉语言模型（VLM）

嵌入模型（Embeddings）

重排模型（Reranking）

计算机视觉（CV）

自动语音识别（ASR）

Linux x64

语言模型（LLM）

视觉语言模型（VLM）

后续步骤