音画同步
OmniHuman 1.5 数字人视频生成
- OmniHuman 1.5 音频驱动数字人视频生成模型
- 输入人像图片+音频,生成角色说话/唱歌/表演的同步视频
- 支持加速模式
- 异步处理模式,使用返回的任务ID 进行查询
- 生成的视频链接,有效期为24小时,请尽快保存
POST
授权
所有接口均需要使用Bearer Token进行认证
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY
请求体
application/json
omnihuman-1.5:音频驱动数字人视频
示例:
"omnihuman-1.5"
人像图片的公开 URL
说明:
- 格式:JPG / PNG / WebP / GIF / AVIF
- 文件大小不超过 5MB
- 必须为公开可访问的 URL
- 图片中需包含人物面部
示例:
"https://example.com/portrait.jpg"
音频文件的公开 URL
说明:
- 格式:MP3 / WAV / OGG / M4A / AAC
- 必须为公开可访问的 URL
- 音频时长决定输出视频时长和计费
- 时长限制:最长 30 秒(720p 模式下最长 60 秒)
示例:
"https://example.com/speech.mp3"
文本引导,控制角色行为和动作
说明:
- 支持中文、英文、日语、韩语、西班牙语、印尼语
- 描述动态动作效果更好,避免描述图片中已有的静态属性
示例:
"The person speaks calmly to the camera"
加速模式
说明:
- 开启后加快生成速度,轻微质量损失
- 适合快速迭代和预览
非必须不要传这个参数。
示例:
true
高级选项,提供额外控制能力
非必须不要传这个参数。
响应
任务创建成功
任务创建时间戳
示例:
1757165031
任务ID
示例:
"task-unified-1757165031-uyujaw3d"
实际使用的模型名称
任务的具体类型
可用选项:
video.generation.task 任务进度百分比 (0-100)
必填范围:
0 <= x <= 100示例:
0
任务状态
可用选项:
pending, processing, completed, failed 示例:
"pending"
异步任务信息
任务的输出类型
可用选项:
video 示例:
"video"