模型名称映射
对于所有 NPU 模型,我们使用内部名称映射,并需要填写对应的插件 ID。| 模型名称 | 插件 ID | HuggingFace 仓库名 |
|---|---|---|
| omni-neural | npu | NexaAI/OmniNeural-4B-mobile |
| phi3.5 | npu | NexaAI/phi3.5-mini-npu-mobile |
| phi4 | npu | NexaAI/phi4-mini-npu-mobile |
| granite4 | npu | NexaAI/Granite-4-Micro-NPU-mobile |
| embed-gemma | npu | NexaAI/embeddinggemma-300m-npu-mobile |
| qwen3-4b | npu | NexaAI/Qwen3-4B-Instruct-2507-npu-mobile |
| llama3-3b | npu | NexaAI/Llama3.2-3B-NPU-Turbo-NPU-mobile |
| liquid-v2 | npu | NexaAI/LFM2-1.2B-npu-mobile |
| paddleocr | npu | NexaAI/paddleocr-npu-mobile |
| parakeet | npu | NexaAI/parakeet-tdt-0.6b-v3-npu-mobile |
| yolo26x | npu | NexaAI/yolo26x-npu-mobile |
| yolo26l | npu | NexaAI/yolo26l-npu-mobile |
| yolo26m | npu | NexaAI/yolo26m-npu-mobile |
| yolo26s | npu | NexaAI/yolo26s-npu-mobile |
| yolo26n | npu | NexaAI/yolo26n-npu-mobile |
| depth-anything-v2 | npu | NexaAI/depth-anything-v2-npu-mobile |
在 NPU 上运行的两种方式
你可以通过两种不同方式在 Qualcomm Hexagon NPU 上运行模型:1) NEXA 模型(通过 “npu” 插件)
- 使用
npu插件 - 从上表中选择支持的 NEXA 模型,并相应设置
model_name
2) GGUF 模型(通过 GGML Hexagon 后端)
- 加载 GGUF 模型
- 使用
cpu_gpu插件 - 设置
device_id为HTP0 - 在
ModelConfig中设置nGpuLayers > 0
LLM 用法
适用于文本生成与聊天应用的大语言模型。1) NEXA 模型(“npu” 插件)
支持 NEXA 格式模型的 NPU 推理。2) 在 Hexagon NPU 上运行 GGUF 模型(GGML Hexagon 后端)
通过使用cpu_gpu 插件,设置 device_id = "HTP0,HTP1,HTP2,HTP3" 并设置 nGpuLayers > 0,在 Hexagon NPU 上运行 GGUF 模型。
多模态用法
用于图像理解与多模态应用的视觉语言模型。1) NEXA 模型(“npu” 插件)
支持 NEXA 格式模型的 NPU 推理。2) 在 Hexagon NPU 上运行 GGUF 模型(GGML Hexagon 后端)
通过使用cpu_gpu 插件,设置 device_id = "HTP0" 并设置 nGpuLayers > 0,在 Hexagon NPU 上运行 GGUF VLM。
嵌入用法
用于语义搜索与 RAG 应用的向量嵌入。基本用法
ASR 用法
用于音频转写的自动语音识别。基本用法
重排用法
根据查询相关性对文档进行重排,提升检索相关性。基本用法
CV 用法
用于 OCR、目标检测与图像分类的计算机视觉模型。基本用法
需要帮助?
加入我们的社区获取支持、分享项目并与其他开发者交流。Was this page helpful?