OpenAI Format - Transcriptions
OpenAI 格式
OpenAI 格式 - 语音识别
- 适用于所有兼容 OpenAI 格式语音识别模型的通用 Transcriptions API 参考
- 将音频文件转换为文本
- 支持的模型:
whisper-1(主推)、gpt-4o-transcribe、gpt-4o-mini-transcribe、cohere-transcribe - 支持指定语言、提示词引导风格与多种响应格式
- 各模型独有的字段(如时间戳粒度、流式、说话人分离、标点控制等)请参见页面下方的「模型参数说明」
POST
OpenAI Format - Transcriptions
模型参数说明
OpenAI 语音识别接口在不同模型上支持的字段存在差异。请求体只列出了所有模型通用的核心字段,下文说明各模型独有或受限的字段。支持的模型
| 模型 ID | 用途 |
|---|---|
whisper-1 | 经典 Whisper V2 模型,支持最完整的输出格式与时间戳粒度 |
gpt-4o-transcribe | 高精度识别,仅支持 json 输出,可流式 |
gpt-4o-mini-transcribe | 轻量版高精度识别,仅支持 json 输出,可流式 |
gpt-4o-mini-transcribe-2025-12-15 | gpt-4o-mini-transcribe 的版本快照 |
gpt-4o-transcribe-diarize | 带说话人分离的识别,使用 diarized_json 获取每段说话人标注 |
cohere-transcribe | Fal 平台托管的 Cohere 转写模型,支持 14 种语言,可控标点与最大输出长度 |
response_format 各模型支持矩阵
| 模型 | 支持的格式 |
|---|---|
whisper-1 | json / text / srt / verbose_json / vtt |
gpt-4o-transcribe、gpt-4o-mini-transcribe(-2025-12-15) | 仅 json |
gpt-4o-transcribe-diarize | json / text / diarized_json(要拿到说话人标注必须使用 diarized_json) |
cohere-transcribe | 仅 json / text |
whisper-1 独有特性
timestamp_granularities[]— array,可选值word/segment,默认[segment]- 词级 / 段级时间戳粒度
- 仅在
response_format=verbose_json时生效 - 表单字段名以
timestamp_granularities[]形式重复传递(数组) - gpt-4o-* 系列因仅支持
json,实际无法使用此参数;gpt-4o-transcribe-diarize明确禁用
- 不支持流式:在
whisper-1上传stream=true会被静默忽略。
gpt-4o-* 系列独有参数
适用于gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-transcribe-2025-12-15。
-
include[]— array,可选值仅logprobs- 返回每个 token 的对数概率,用于评估模型识别置信度
- 仅在
response_format=json时生效 - 不适用于
whisper-1与gpt-4o-transcribe-diarize
-
stream— boolean,默认false- 通过 SSE(Server-Sent Events)流式返回识别结果
whisper-1不支持,参数会被忽略
-
chunking_strategy—"auto"字符串 或server_vad对象- 控制音频如何切分为块。不传则整段音频作为一个块识别
-
设为
"auto":服务端先做响度归一化,再用 VAD 自动选择切分边界 -
设为
server_vad对象(手动调参 VAD):字段 类型 默认 说明 typestring — 必填,固定为 "server_vad"prefix_padding_msinteger 300VAD 检测到语音前包含的音频时长(毫秒) silence_duration_msinteger 200用于判定语音结束的静音时长(毫秒)。值越短响应越快,但可能在短停顿处误切
gpt-4o-transcribe-diarize 独有参数
仅适用于 gpt-4o-transcribe-diarize(说话人分离专用模型)。
-
chunking_strategy— 处理超过 30 秒的音频时必传(推荐"auto") -
known_speaker_names[]— array,最多 4 个- 已知说话人的标识列表(如
customer、agent) - 与
known_speaker_references[]一一对应
- 已知说话人的标识列表(如
-
known_speaker_references[]— array,最多 4 个- 对应说话人的参考音频,使用 data URL 格式
- 每段需 2-10 秒
- 支持的音频格式与
file字段相同
gpt-4o-transcribe-diarize 不支持的字段
以下字段在 gpt-4o-transcribe-diarize 上不可用:
| 字段 | 说明 |
|---|---|
prompt | 不支持提示词引导 |
timestamp_granularities[] | 不支持词级 / 段级时间戳粒度配置 |
include[] | 不支持 logprobs 等附加返回 |
stream | 不支持流式输出 |
cohere-transcribe 独有特性
由 Fal 平台托管的 Cohere 转写模型,支持 14 种语言(en / fr / de / it / es / pt / el / nl / pl / zh / ja / ko / vi / ar)。language 传其他取值时由上游返回错误。
独有参数
-
punctuation— boolean,默认true- 控制识别结果是否保留标点符号
-
max_new_tokens— integer,默认256- 限制单次识别输出的最大 token 数
不支持的字段
以下 OpenAI 标准字段在cohere-transcribe 上不可用,传入后会被静默忽略(不会报错):
| 字段 | 说明 |
|---|---|
prompt | 不支持提示词引导 |
temperature | 不支持温度参数 |
timestamp_granularities[] | 不支持词级 / 段级时间戳 |
include[] | 不支持 logprobs 等附加返回 |
stream | 不支持流式输出 |
chunking_strategy | 不支持分块策略 |
response_format 仅支持 json / text,传入 srt / vtt / verbose_json / diarized_json 等其他值会返回 400。授权
所有接口均需要使用Bearer Token进行认证
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY
请求体
multipart/form-data
待识别音频文件
说明:
- 通过 multipart/form-data 上传
- 支持格式:flac / mp3 / mp4 / mpeg / mpga / m4a / ogg / wav / webm
语音识别模型 ID,可选值:whisper-1、gpt-4o-transcribe、gpt-4o-mini-transcribe、cohere-transcribe
示例:
"whisper-1"
音频语言(ISO-639-1 代码,如 en、zh、ja)。提供该参数能提升识别准确度并加快处理速度。各模型支持的语言集存在差异,详见下方「模型参数说明」。
示例:
"zh"
用于引导模型识别风格或延续上一段音频的可选文本。提示词需与音频语言一致。
响应格式
可用选项:
json, text, srt, verbose_json, vtt 采样温度,取值 0-1。值越高输出越随机,0 表示模型自动调整。
必填范围:
0 <= x <= 1是否保留标点符号。仅 cohere-transcribe 支持,默认为 true;传给其他模型会被忽略。
限制单次识别输出的最大 token 数。仅 cohere-transcribe 支持,默认为 256;传给其他模型会被忽略。
响应
语音识别响应
- Option 1
- Option 2
识别得到的文本
示例:
"今天天气不错,我们去公园散步吧。"