语音识别
Scribe V2 语音识别
- Scribe V2 录音文件识别模型
- 支持语言指定、说话人分离、音频事件标注与 keyterms 偏置词增强
- 异步处理模式,使用返回的任务ID 进行查询
- 识别结果会在任务详情的
results字段中返回
POST
授权
所有接口均需要使用Bearer Token进行认证
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY
请求体
application/json
scribe-v2:支持 diarize、音频事件标注与 keyterms 的语音识别模型
示例:
"scribe-v2"
待识别音频文件 URL
说明:
- 需为 HTTP/HTTPS 可访问地址
- 音频文件需可被系统直接访问和读取
示例:
"https://samplelib.com/lib/preview/mp3/sample-3s.mp3"
音频语言代码
说明:
- 支持 ISO-639-1 或 ISO-639-3 代码
- 例如:
zh/zho/en/eng - 不传时由模型自动检测
示例:
"zh"
是否标注笑声、掌声等音频事件。默认开启。
示例:
true
是否进行说话人分离。默认开启。
示例:
true
偏置词 / 短语列表
说明:
- 最多 100 个条目
- 每个条目最多 50 个字符
- 用于提升特定术语或专有名词的识别倾向
非必须不要传这个参数。
Maximum array length:
100Maximum string length:
50示例:
[
"project kickoff",
"quarterly results",
"speech to text"
]响应
任务创建成功
任务创建时间戳
示例:
1757165031
任务ID
示例:
"task-unified-1757165031-uyujaw3d"
实际使用的模型名称
任务的具体类型
可用选项:
audio.generation.task 任务进度百分比 (0-100)
必填范围:
0 <= x <= 100示例:
0
任务状态
可用选项:
pending, processing, completed, failed 示例:
"pending"
异步任务信息
任务的输出类型
可用选项:
audio 示例:
"audio"