插件选择
为你的模型类型和格式选择合适的后端插件。"cpu_gpu"- GGUF 后端,用于 CPU/GPU/Hexagon NPU(LLM、VLM)。设备通过device_id+nGpuLayers选择。"npu"- NPU 后端,用于 NEXA 格式模型(LLM、VLM、Embeddings、ASR、CV、Rerank)"whisper_cpp"- Whisper.cpp 后端,用于 ASR"tts_cpp"- TTS 后端,用于文本转语音
设备选择
控制哪个硬件设备处理你的模型。null- CPU(默认)"GPUOpenCL"- 通过 OpenCL 的 GPU 加速"HTP0"- Qualcomm Hexagon NPU 加速
使用 GGUF 的硬件加速(
plugin_id = "cpu_gpu"):- GPU:设置
device_id = "GPUOpenCL"并在ModelConfig中设置nGpuLayers > 0 - Hexagon NPU(GGML 后端):设置
device_id = "HTP0"并在ModelConfig中设置nGpuLayers > 0
nGpuLayers = 0(或 device_id = null),模型将在 CPU 上运行。LLM 数据结构
LlmCreateInput
ChatMessage
GenerationConfig
LlmStreamResult
多模态数据结构
VlmCreateInput
VlmChatMessage
VlmContent
嵌入数据结构
EmbedderCreateInput
EmbeddingConfig
ASR 数据结构
AsrCreateInput
AsrTranscribeInput
AsrTranscriptionResult
TTS 数据结构
TtsCreateInput
TtsSynthesizeInput
TtsConfig
TtsSynthesizeOutput
重排数据结构
RerankerCreateInput
RerankConfig
RerankerResult
计算机视觉数据结构
CVCreateInput
CVModelConfig
CVCapability
CVResult
需要帮助?
加入我们的社区获取支持、分享项目并与其他开发者交流。Was this page helpful?