音频理解
使用返回的任务 ID 进行查询 获取最终结果。
授权
所有接口均需要使用 Bearer Token 进行认证。在请求头中添加:
Authorization: Bearer YOUR_API_KEY
YOUR_API_KEY 为 API Token(sk-... 格式)。
请求体
音频源。接受以下两种形式:
- 公网 HTTP/HTTPS URL
data:audio/<type>;base64,<payload>data URI(base64 内联)
各家族音频格式支持(具体可用模型由渠道配置驱动):
- Gemini 家族(如
gemini-*):wav/mp3/aiff/aac/ogg/flac/m4a;整个请求体(prompt + system + 内联文件)≤ 20 MB
base64 数据不做体积校验,过大可能触发 422。
1"https://storage.googleapis.com/cloud-samples-tests/speech/brooklyn.flac"
用户提示词。省略时默认为 'Please transcribe this audio file',与转写场景一致。
100000"Identify the speakers and emotion in this audio."
同步模式。true 时端点阻塞直到上游完成并返回完整响应(如同时 stream=true,则返回 SSE 流);false 时端点立即返回任务 ID,结果通过 GET /v1/tasks/{task_id} 或 SSE 端点获取。
false
是否流式。true 时 Submit 响应包含 stream.url 指向 SSE 订阅路径;流式 chunks 统一为 OpenAI chat.completion.chunk 格式。
false
生成 token 上限。可选。
x >= 1256
采样温度,区间 [0, 2]。可选。
0 <= x <= 2系统指令。可选。
10000是否包含 reasoning tokens。部分思考模型需设为 true。
响应
任务已创建
Submit 响应,对齐统一任务标准形状。results / error 在 submit 阶段固定为 null,任务完成/失败后通过 GET /v1/tasks/{task_id} 返回。
任务 ID,格式 task-llm-{timestamp}-{8random}。
"task-llm-1776874565-yq3szvcu"
llm.generation.task "llm.generation.task"
llm "llm"
客户端提交的模型名(原样回显)
"gemini-2.5-pro"
pending "pending"
0
1776874565
stream=true 时返回 {url: ...};stream=false 时为 null。
submit 阶段固定 null;任务完成后通过 GET /v1/tasks/{task_id} 返回,results[0] 为完整 OpenAI ChatCompletion 响应(音频转写 / 理解输出在 message.content)。
null
submit 阶段固定 null;任务失败时通过 GET /v1/tasks/{task_id} 返回。
null