NexaAI Python SDK API 参考
本文档提供 NexaAI Python SDK 中所有模块与类的完整 API 说明。关于平台相关的安装与示例,请参见平台指南:- macOS 指南 - Apple Silicon 优化
- Windows x64 指南 - CPU/GPU 加速
- Windows ARM64 指南 - NPU 加速
核心模块
LLM(大语言模型)
LLM 类提供文本生成与对话能力。
初始化
核心方法
generate_stream(prompt, config=None)
- 以流式方式生成文本 token
- 参数:
prompt(str):输入提示词config(GenerationConfig,可选):生成配置
- 返回:迭代产生文本 token 的生成器,结束时返回
GenerateResultgenerate(prompt, config=None, on_token=None) - 生成文本,可选流式 token 回调
- 参数:
prompt(str):输入提示词config(GenerationConfig,可选):生成配置on_token(Callable[[str], bool],可选):流式 token 回调函数
- 返回:包含生成文本与性能数据的
GenerateResultapply_chat_template(messages, tools=None, enable_thinking=False) - 将聊天模板应用到会话
- 参数:
messages(List[LlmChatMessage]):会话历史tools(str,可选):工具 JSON 字符串enable_thinking(bool):是否启用思维模式
- 返回:格式化后的提示词字符串
reset() - 重置会话状态并清空 KV 缓存
save_kv_cache(path) - 保存 KV 缓存到文件
- 参数:
path(str):缓存保存路径load_kv_cache(path) - 从文件加载 KV 缓存
- 参数:
path(str):缓存载入路径
VLM(视觉语言模型)
VLM 类提供多模态理解与生成能力。
初始化
核心方法
generate_stream(prompt, config=None)
- 以流式方式生成文本 token
- 参数:
prompt(str):输入提示词config(GenerationConfig,可选):生成配置(可包含 image_paths/audio_paths)
- 返回:迭代产生文本 token 的生成器,结束时返回
GenerateResultgenerate(prompt, config=None, on_token=None) - 生成文本,可选流式 token 回调
- 参数:同上
apply_chat_template(messages, tools=None, enable_thinking=False) - 将聊天模板应用到多模态会话
- 参数:
messages(List[VlmChatMessage]):多模态会话历史tools(str,可选):工具 JSON 字符串enable_thinking(bool):是否启用思维模式
- 返回:格式化后的提示词字符串
reset() - 重置会话状态并清空 KV 缓存
ASR(自动语音识别)
ASR 类提供语音转文本能力。
初始化
核心方法
transcribe(audio_path, language=None, timestamps=None, beam_size=5)
- 将音频文件转写为文本
- 参数:
audio_path(str):音频路径language(str,可选):语言代码(“en”、“zh” 或自动)timestamps(str,可选):时间戳格式(“none”、“segment”、“word”)beam_size(int):解码 beam 大小(默认 5)
- 返回:包含转写文本、置信度、时间戳与性能数据的
TranscribeResultlist_supported_languages():返回支持的语言列表stream_begin(...):开始流式转写(回调、切片、重叠、采样率等参数可配)stream_push_audio(audio_data):推入音频数据stream_stop(graceful=True):结束流式转写
Embedder(向量嵌入)
Embedder 类提供文本向量化与相似度计算能力。
初始化
核心方法
embed(texts=None, input_ids=None, image_paths=None, task_type=None, batch_size=32, normalize=False, normalize_method=None)
- 为文本、token 或图像生成向量嵌入
- 参数:支持文本列表、token 序列、图像路径、任务类型、批量大小与归一化
- 返回:包含嵌入与性能数据的
EmbedResultembedding_dim():返回嵌入维度大小
Reranker(重排)
Reranker 类提供基于查询的文档重排能力。
初始化
核心方法
rerank(query, documents, batch_size=32, normalize=False, normalize_method=None)
- 根据查询对文档进行重排
- 参数:查询字符串、文档列表、批量大小、归一化选项等
- 返回:包含分数与性能数据的
RerankResult
CV(计算机视觉)
CV 类提供 OCR 等视觉能力。
初始化
核心方法
infer(input_image_path):对图像进行推理,返回 CVResult
Diarize(说话人分离)
Diarize 类提供说话人分离能力。
初始化
核心方法
infer(audio_path, min_speakers=None, max_speakers=None):对音频执行说话人分段,返回 DiarizeResult
TTS(文本转语音)
TTS 类提供文本转语音能力。
初始化
核心方法
synthesize(text, output_path, voice=None, speed=1.0, seed=-1, sample_rate=22050)
- 将文本合成语音
- 返回:
SynthesizeResult,包含音频文件路径与元信息list_available_voices():列出可用的声音
ImageGen(图像生成)
ImageGen 类提供图像生成能力。
初始化
核心方法
txt2img(...):根据文本提示生成图像
img2img(...):根据初始图像与提示生成图像
配置类
ModelConfig
通用模型配置。GenerationConfig
文本生成配置。消息类
LlmChatMessage
表示 LLM 会话中的一条消息。VlmChatMessage
表示 VLM 的多模态消息(包含多种内容类型)。VlmContent
表示多模态消息中的一个内容项。Was this page helpful?