python 使用语音转文本

语音转文本 API 指南

概述

音频 API 提供两个主要端点：

📝 transcriptions：音频转文本

🔄 translations：音频翻译为英文

支持格式

📁 文件大小：最大25 MB

🎵 支持格式：mp3、mp4、mpeg、mpg、m4a、wav、webm

使用方法

1. 转录（Transcription）

将音频转换为原语言文本

2. 翻译（Translation）

将任意语言音频转换为英文文本

3. 时间戳功能

4. 处理大文件

使用 PyDub 分割大于25MB的文件：

优化建议

提示（Prompts）使用技巧

1.

🔍 用于纠正特定词汇识别

2.

📜 保持上下文连贯性

3.

✍️ 控制标点符号输出

4.

🗣️ 保留填充词

5.

📝 控制输出文字样式（如中文简繁体）

支持语言

支持98种语言，包括：

主要亚洲语言：中文、日语、韩语等

欧洲语言：英语、法语、德语等

其他地区语言：阿拉伯语、印地语等

注意：仅列出词错误率(WER)低于50%的语言，其他语言虽支持但质量可能较低

修改于 2026-04-25 12:23:17

python 连续对话

python 使用文本转语音