OpenAI 格式 - 语音识别

OpenAI Format - Transcriptions

curl --request POST \
  --url https://api.foxapi.cc/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=whisper-1 \
  --form language=zh \
  --form 'prompt=<string>' \
  --form response_format=json \
  --form temperature=0 \
  --form punctuation=true \
  --form max_new_tokens=123

{
  "text": "今天天气不错，我们去公园散步吧。"
}

POST

audio

transcriptions

OpenAI Format - Transcriptions

curl --request POST \
  --url https://api.foxapi.cc/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=whisper-1 \
  --form language=zh \
  --form 'prompt=<string>' \
  --form response_format=json \
  --form temperature=0 \
  --form punctuation=true \
  --form max_new_tokens=123

{
  "text": "今天天气不错，我们去公园散步吧。"
}

模型参数说明

OpenAI 语音识别接口在不同模型上支持的字段存在差异。请求体只列出了所有模型通用的核心字段，下文说明各模型独有或受限的字段。

支持的模型

模型 ID	用途
`whisper-1`	经典 Whisper V2 模型，支持最完整的输出格式与时间戳粒度
`gpt-4o-transcribe`	高精度识别，仅支持 `json` 输出，可流式
`gpt-4o-mini-transcribe`	轻量版高精度识别，仅支持 `json` 输出，可流式
`gpt-4o-mini-transcribe-2025-12-15`	`gpt-4o-mini-transcribe` 的版本快照
`gpt-4o-transcribe-diarize`	带说话人分离的识别，使用 `diarized_json` 获取每段说话人标注
`cohere-transcribe`	Fal 平台托管的 Cohere 转写模型，支持 14 种语言，可控标点与最大输出长度

`response_format` 各模型支持矩阵

模型	支持的格式
`whisper-1`	`json` / `text` / `srt` / `verbose_json` / `vtt`
`gpt-4o-transcribe`、`gpt-4o-mini-transcribe`(-2025-12-15)	仅 `json`
`gpt-4o-transcribe-diarize`	`json` / `text` / `diarized_json`（要拿到说话人标注必须使用 `diarized_json`）
`cohere-transcribe`	仅 `json` / `text`

`whisper-1` 独有特性

timestamp_granularities[] — array，可选值 word / segment，默认 [segment]
- 词级 / 段级时间戳粒度
- 仅在 response_format=verbose_json 时生效
- 表单字段名以 timestamp_granularities[] 形式重复传递（数组）
- gpt-4o-* 系列因仅支持 json，实际无法使用此参数；gpt-4o-transcribe-diarize 明确禁用
不支持流式：在 whisper-1 上传 stream=true 会被静默忽略。

gpt-4o-* 系列独有参数

适用于 gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-transcribe-2025-12-15。

include[] — array，可选值仅 logprobs
- 返回每个 token 的对数概率，用于评估模型识别置信度
- 仅在 response_format=json 时生效
- 不适用于 whisper-1 与 gpt-4o-transcribe-diarize
stream — boolean，默认 false
- 通过 SSE（Server-Sent Events）流式返回识别结果
- whisper-1 不支持，参数会被忽略

chunking_strategy — "auto" 字符串或 server_vad 对象

控制音频如何切分为块。不传则整段音频作为一个块识别
设为 "auto"：服务端先做响度归一化，再用 VAD 自动选择切分边界

设为 server_vad 对象（手动调参 VAD）：

字段	类型	默认	说明
`type`	string	—	必填，固定为 `"server_vad"`
`prefix_padding_ms`	integer	`300`	VAD 检测到语音前包含的音频时长（毫秒）
`silence_duration_ms`	integer	`200`	用于判定语音结束的静音时长（毫秒）。值越短响应越快，但可能在短停顿处误切

`gpt-4o-transcribe-diarize` 独有参数

仅适用于 gpt-4o-transcribe-diarize（说话人分离专用模型）。

chunking_strategy — 处理超过 30 秒的音频时必传（推荐 "auto"）
known_speaker_names[] — array，最多 4 个
- 已知说话人的标识列表（如 customer、agent）
- 与 known_speaker_references[] 一一对应
known_speaker_references[] — array，最多 4 个
- 对应说话人的参考音频，使用 data URL 格式
- 每段需 2-10 秒
- 支持的音频格式与 file 字段相同

`gpt-4o-transcribe-diarize` 不支持的字段

以下字段在 gpt-4o-transcribe-diarize 上不可用：

字段	说明
`prompt`	不支持提示词引导
`timestamp_granularities[]`	不支持词级 / 段级时间戳粒度配置
`include[]`	不支持 `logprobs` 等附加返回
`stream`	不支持流式输出

`cohere-transcribe` 独有特性

由 Fal 平台托管的 Cohere 转写模型，支持 14 种语言（en / fr / de / it / es / pt / el / nl / pl / zh / ja / ko / vi / ar）。language 传其他取值时由上游返回错误。

独有参数

punctuation — boolean，默认 true
- 控制识别结果是否保留标点符号
max_new_tokens — integer，默认 256
- 限制单次识别输出的最大 token 数

不支持的字段

以下 OpenAI 标准字段在 cohere-transcribe 上不可用，传入后会被静默忽略（不会报错）：

字段	说明
`prompt`	不支持提示词引导
`temperature`	不支持温度参数
`timestamp_granularities[]`	不支持词级 / 段级时间戳
`include[]`	不支持 logprobs 等附加返回
`stream`	不支持流式输出
`chunking_strategy`	不支持分块策略

response_format 仅支持 json / text，传入 srt / vtt / verbose_json / diarized_json 等其他值会返回 400。

授权

Authorization

string

header

必填

所有接口均需要使用Bearer Token进行认证

使用时在请求头中添加：

Authorization: Bearer YOUR_API_KEY

请求体

multipart/form-data

file

必填

待识别音频文件

说明：

通过 multipart/form-data 上传
支持格式：flac / mp3 / mp4 / mpeg / mpga / m4a / ogg / wav / webm

model

string

必填

语音识别模型 ID，可选值：whisper-1、gpt-4o-transcribe、gpt-4o-mini-transcribe、cohere-transcribe

示例:

"whisper-1"

language

string

音频语言（ISO-639-1 代码，如 en、zh、ja）。提供该参数能提升识别准确度并加快处理速度。各模型支持的语言集存在差异，详见下方「模型参数说明」。

示例:

"zh"

prompt

string

用于引导模型识别风格或延续上一段音频的可选文本。提示词需与音频语言一致。

response_format

enum<string>

默认值:json

响应格式

可用选项:

json,

text,

srt,

verbose_json,

vtt

temperature

number

默认值:0

采样温度，取值 0-1。值越高输出越随机，0 表示模型自动调整。

必填范围: 0 <= x <= 1

punctuation

boolean

是否保留标点符号。仅 cohere-transcribe 支持，默认为 true；传给其他模型会被忽略。

max_new_tokens

integer

限制单次识别输出的最大 token 数。仅 cohere-transcribe 支持，默认为 256；传给其他模型会被忽略。

响应

语音识别响应

Option 1
Option 2

text

string

必填

识别得到的文本

示例:

"今天天气不错，我们去公园散步吧。"

OpenAI 格式 - 嵌入 OpenAI 格式 - 调用工具对话

​模型参数说明

​支持的模型

​response_format 各模型支持矩阵

​whisper-1 独有特性

​gpt-4o-* 系列独有参数

​gpt-4o-transcribe-diarize 独有参数

​gpt-4o-transcribe-diarize 不支持的字段

​cohere-transcribe 独有特性

​独有参数

​不支持的字段

授权

所有接口均需要使用Bearer Token进行认证

请求体

响应

模型参数说明

支持的模型

`response_format` 各模型支持矩阵

`whisper-1` 独有特性

gpt-4o-* 系列独有参数

`gpt-4o-transcribe-diarize` 独有参数

`gpt-4o-transcribe-diarize` 不支持的字段

`cohere-transcribe` 独有特性

独有参数

不支持的字段