快速开始
如果尚未拉取模型,请先拉取。例如,拉取 Qwen3:bash
bash
http://127.0.0.1:18181。保持该终端窗口运行服务器,并在另一个终端窗口中发送请求。
查看可配置的服务器选项:
nexa serve -h
你也可以直接体验服务端交互:
nexa pull 拉取的任意模型。run 命令会启动一个与 nexa infer 类似的 REPL 对话界面,但所有对话由本地 nexa serve 服务处理。
模型选择
部分模型仅能在特定平台运行。例如,MLX 模型仅能在 macOS 13+ 设备运行;OmniNeural 仅能在搭载 Qualcomm NPU 的笔记本上运行。下表给出了各系统的示例模型,便于你快速尝试:| 操作系统 | 模态 | 推荐模型 |
|---|---|---|
| macOS | LLM | NexaAI/gpt-oss-20b-MLX-4bit |
| macOS | VLM | NexaAI/gemma-3n-E4B-it-4bit-MLX |
| macOS | 图像生成 | NexaAI/sdxl-turbo |
| macOS | ASR | NexaAI/whisper-large-v3-turbo-MLX |
| macOS | TTS | NexaAI/Kokoro-82M-bf16-MLX |
| Windows x86 | LLM | NexaAI/Qwen3-4B-GGUF |
| Windows x86 | VLM | NexaAI/gemma-3n |
| Windows x86 | 图像生成 | NexaAI/Prefect-illustrious-XL-v2.0p |
| Windows Qualcomm ARM64 | LLM | NexaAI/Qwen3-4B-npu |
| Windows Qualcomm ARM64 | VLM | NexaAI/OmniNeural-4B |
| Windows Qualcomm ARM64 | ASR | NexaAI/parakeet-tdt-0.6b-v3-npu |
| Windows AMD NPU | 图像生成 | NexaAI/sdxl-turbo-amd-npu |
| Windows Intel NPU | LLM | NexaAI/llama-3.1-8B-intel-npu |
/v1/chat/completions
为给定会话生成模型回复。支持 LLM(仅文本) 与 VLM(图像+文本)。使用 LLM
请求体示例
Example Value
使用示例
使用 VLM
请求体示例
image_url 可以是以下几种类型之一:
- 远程 URL,例如:
https://example.com/photo.jpg - base64 编码的字符串,例如:
data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD... - 服务器上的本地文件路径,服务器需要有对此文件的访问权限。例如:
file:///C:/Users/Username/Pictures/photo.jpg(Windows)或file:///Users/Username/Pictures/photo.jpg(MacOS/Linux),file://可以省略,直接提供路径,如C:/Users/Username/Pictures/photo.jpg或/Users/Username/Pictures/photo.jpg。
Example Value
使用示例
/v1/images/generations
根据提示词生成图像。以下示例使用
NexaAI/Prefect-illustrious-XL-v2.0p-fp16-cuda,该模型适用于绝大多数 CUDA(NVIDIA GPU)环境。如果你在 Apple Silicon 上运行,请使用 MLX 兼容的模型(例如 nexaml/sdxl-turbo-ryzen-ai)。请确保所选模型与硬件能力匹配。请求体示例
Example Value
使用示例
/v1/embeddings
为输入文本创建向量嵌入。可用于将文本(或文档分块)转换为向量并建立检索索引。当你需要将 文本或文档分块转换为向量 以用于检索系统时,请使用该接口。确保所选模型支持 embeddings(向量嵌入)(例如
djuna/jina-embeddings-*)。如果使用非嵌入模型调用该 API 会返回错误。最小请求体
Example Value
使用示例
/v1/reranking
根据查询对文档进行重排,返回与输入顺序对应的一组相关性分数(值越高表示越相关)。在完成 粗检索(如嵌入向量 Top-K)后,使用该接口提升最终排序质量。请确保所选模型支持重排(reranking)。如果使用非重排模型调用该 API 会返回错误。
最小请求体
Example Value
使用示例
Was this page helpful?