1. Python配置方式
学码AI大模型平台使用文档
  • 01-人工客服
  • 02-学码AI大模型说明
  • 03-学码AI大模型开放平台-技术支持1QQ群
  • AI编程
    • Codex安装使用教程
    • cline 配置教程
    • Windows:Codex 一键安装脚本
  • 各种插件/软件使用教程
    • CherryStudio调用cluade MCP
    • Cherry Studio配置教程
    • CherryStudio配置o4推理级别
    • dify添加模型
    • chatgpt-on-wechat 配置教程
    • 沉浸式翻译 设置gpt翻译
    • nextchat 设置教程
    • aider 配置教程
    • lobechat 设置教程
    • chatgpt GPT Academic 学术优化配置gpt教程
    • zotero gpt 配置方法
    • 浏览器插件ChatGPT Sidebar
    • ChatBox(推荐使用)
    • 开源gpt_academic
    • Codex 安装与配置教程
    • N8N 工作流使用中转API 教程
    • opencode 配置教程
    • OpenClaw配置教程附一键安装脚本
  • 学码AI大模型开放平台介绍
    • 联系客服
    • 分组详细表格
    • 分组的特殊性及价格差异
    • 如何新建指定分组的令牌
    • API Key 额度查询服务
    • 免费AI聊天项目导航
  • 聊天(Responses)
    • Responses API与Chat API对比
    • 创建模型响应
    • 创建函数调用
    • 创建模型响应(流式返回)
    • 创建模型响应 (控制思考长度)
    • 创建深度搜索 (巨贵,一次几十刀,慎用)
    • 创建网络搜索
    • 创建模型响应 gpt-5启用思考
  • 文生图模型
    • 创建 gpt-image-1
    • 创建 gpt-image-1.5
  • GPTs 相关
    • 简介
  • Python配置方式
    • python openai官方库(使用AutoGPT,langchain等)
    • python 连续对话
    • python 使用 语音转文本
    • python 使用文本转语音
    • python 使用Embeddings 向量化
    • python 调用DALL·E
    • python简单调用 openai function-calling demo
    • python 简单langchain 调用openai demo
    • python llama_index 配置
    • Python使用gpt-4o识别图片-本地图片
    • python 库流式输出
    • gpt realtime模型调用
    • python request 请求 流式输出demo
    • Python基础对话
    • Python使用gpt-4o识别图片
    • Python使用Claude识别图片
    • python 使用gpt-image-1 创建编辑图片
  • nodejs 配置方式
    • nodejs 基础对话
  • 帮助中心
    • AI返回字段: 思考相关
    • HTTP状态码及其含义
  • 绘画模型
    • README
    • 图像对象
    • GPT Image-1
      • 蒙版 gpt-image-1
      • 创建图片
      • 蒙版 gpt-image-1.5
    • FLUX 系列
      • gpt 兼容格式
        • 创建 Image
        • 编辑 gpt-image-1.5
    • GPT Image 系列
      • 编辑 image
  • 聊天(Chat)
    • ChatGpt 接口
      • ChatGPT音频(Audio)
        • GPT-4o-audio
        • 音频转文字 whisper-1
        • 音频转文字 gpt-4o-transcribe
        • 创建语音 gpt-4o-mini-tts
        • 创建翻译 (不支持)
      • ChatGPT聊天(Chat)
        • 聊天完成对象
        • 聊天完成块对象
        • 创建聊天补全 (流式)
        • 创建聊天补全 (非流)
        • 创建聊天识图 (流式)
        • 创建聊天识图 (流式) best64
        • 创建聊天识图 (非流)
        • 创建聊天创作图 (非流)
        • 官方Function calling调用
        • 官方N测试
        • 列出模型
        • 创建聊天函数调用
        • 创建结构化输出
        • 控制推理模型努力程度
        • 创建聊天补全 qwen-mt-turbo
        • 创建聊天补全 deepseek v3.1思考程度 (流式)
        • deepseek-ocr 识别
      • ChatGPT自动补全(Completions)
        • 完成对象
        • 创建完成
      • ChatGPT嵌入(Embeddings)
        • 嵌入对象
        • 创建嵌入
      • Web 搜索
        • web搜索
  1. Python配置方式

python 使用 语音转文本

语音转文本 API 指南#

概述#

音频 API 提供两个主要端点:
📝 transcriptions:音频转文本
🔄 translations:音频翻译为英文

支持格式#

📁 文件大小:最大25 MB
🎵 支持格式:mp3、mp4、mpeg、mpg、m4a、wav、webm

使用方法#

1. 转录(Transcription)#

将音频转换为原语言文本

2. 翻译(Translation)#

将任意语言音频转换为英文文本

3. 时间戳功能#

4. 处理大文件#

使用 PyDub 分割大于25MB的文件:

优化建议#

提示(Prompts)使用技巧#

1.
🔍 用于纠正特定词汇识别
2.
📜 保持上下文连贯性
3.
✍️ 控制标点符号输出
4.
🗣️ 保留填充词
5.
📝 控制输出文字样式(如中文简繁体)

支持语言#

支持98种语言,包括:
主要亚洲语言:中文、日语、韩语等
欧洲语言:英语、法语、德语等
其他地区语言:阿拉伯语、印地语等
注意:仅列出词错误率(WER)低于50%的语言,其他语言虽支持但质量可能较低
修改于 2026-04-25 12:23:17
上一页
python 连续对话
下一页
python 使用文本转语音
Built with