Python配置方式
复制页面
快跑科技
引言
目录
常见问题
API 快速开始指南
网站使用
操练场
模型广场(选择模型和分组)
令牌管理
聊天与生图
Cherry Studio生图使用
Chatbox生图设置
ChatBox 移动端
CCSwitch配置(新手推荐 简单快速)
CCSwitch快速配置ChatGPT Codex
CCSwitch快速配置Claude
CCSwitch快速配置在Claude中使用GPT模型
OpenClaw / Hermes配置教程
OpenClaw配置ChatGPT教程
OpenClaw配置Claude教程
OpenClaw安装Skill教程
Hermes配置ChatGPT教程
各种插件/软件使用教程
Codex 配置教程
Trae配置教程
OpenClaw Clawdbot 自定义中转站配置教程
N8N 工作流使用中转API 教程
opencode 配置教程
Gemini CLI 中转站配置使用教程
Claude Code 安装使用教程
CherryStudio调用cluade MCP
Cherry Studio配置教程
Cherry Studio配置 banana pro 4K和分辨率教程
CherryStudio配置o4推理级别
扣子工作流简单配置从输入到获取url
dify添加模型
cline 配置教程
aider 配置教程
Cursor 免费版配置教程
Cursor 配置教程
lobechat 设置教程
ChatBox(推荐使用)
开源gpt_academic
nextchat 设置教程
zotero gpt 配置方法
CLAUDE DEV 配置教程
沉浸式翻译 设置gpt翻译
浏览器插件ChatGPT Sidebar
chatgpt-on-wechat 配置教程
chatgpt GPT Academic 学术优化配置gpt教程
RikkaHub 配置教程
coze 工作流使用中转API 教程
n8n 工作流获取本地图片生成视频例子
OpenClaw 最新版本 自定义中转站配置教程
接口文档
聊天(Chat)
ChatGpt 接口
ChatGPT音频(Audio)
GPT-4o-audio
音频转文字 whisper-1
音频转文字 gpt-4o-transcribe
创建语音 gpt-4o-mini-tts
创建翻译 (不支持)
ChatGPT聊天(Chat)
聊天完成对象
聊天完成块对象
创建聊天补全 (流式)
创建聊天补全 (非流)
创建聊天识图 (流式)
创建聊天识图 (流式) best64
创建聊天识图 (非流)
创建聊天创作图 (非流)
官方Function calling调用
官方N测试
列出模型
创建聊天函数调用
创建结构化输出
控制推理模型努力程度
创建聊天补全 qwen-mt-turbo
创建聊天补全 deepseek v3.1思考程度 (流式)
deepseek-ocr 识别
ChatGPT自动补全(Completions)
完成对象
创建完成
ChatGPT嵌入(Embeddings)
嵌入对象
创建嵌入
Web 搜索
web搜索
Anthropic Claude 接口
聊天完成对象
聊天完成块对象
原生格式
创建聊天补全 (流式)
创建函数调用 (流式)
创建格式化输出
创建思考聊天
PDF支持
PDF支持 base64格式
联网搜索
chat兼容格式
创建思考聊天
创建聊天补全 (流式)
创建聊天补全 (非流)
创建聊天识图 (流式)
创建聊天识图 (非流)
谷歌Gemini 接口
原生格式
文本生成
文本生成-流
文本生成+思考-流
图片生成
图片生成 gemini-2.5-flash-image
图片生成 gemini-2.5-flash-image 控制宽高比
图片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
图片编辑
图片理解
格式化输出
函数调用
文档理解
URL context [原生格式]
代码执行
google search
视频理解
URL context
音频理解
Embeddings
TTS 文本转语音
文本生成 gemini-3-pro-preview:generateContent
Imagen 生成图片
gemini-tts文本转语音
文本嵌入
chat兼容格式
gemini图片创作接口 [chat兼容格式]
聊天接口 [chat兼容格式]
聊天接口-思考1 [chat兼容格式]
聊天接口-思考2 [chat兼容格式]
识图接口 [chat兼容格式]
聊天+读取文件接口 [chat兼容格式]
文本嵌入 [chat兼容格式]
聊天(Responses)
Responses API与Chat API对比
创建模型响应
创建函数调用
创建模型响应(流式返回)
创建模型响应 (控制思考长度)
创建网络搜索
创建模型响应 gpt-5启用思考
创建函数调用 Copy
生图
API接口调用
Python配置方式
python 使用 语音转文本
python 使用文本转语音
python 使用Embeddings 向量化
python 调用DALL·E
python简单调用 openai function-calling demo
python 简单langchain 调用openai demo
python llama_index 配置
Python基础对话
Python使用gpt-4o识别图片-本地图片
Python使用gpt-4o识别图片
Python使用Claude识别图片
python 库流式输出
gpt realtime模型调用
python request 请求 流式输出demo
python 使用gpt-image-1 创建编辑图片
python openai官方库(使用AutoGPT,langchain等)
python 连续对话
nodejs 配置方式
nodejs 基础对话
帮助中心
AI返回字段: 思考相关
HTTP状态码及其含义
联系我们
Python配置方式
复制页面
python 使用文本转语音
文字转语音 (TTS) API 指南
#
概述
#
音频 API 提供
speech
端点,基于 TTS 模型实现以下功能:
📝 博客文章朗读
🌍 多语言音频生成
🎵 实时音频流输出
重要提示
:必须向用户声明所听到的是 AI 生成的语音,而非人类声音
基础使用
#
基本示例
#
功能特性
#
音频质量选项
#
tts-1
: 低延迟,适合实时应用
tts-1-hd
: 更高质量,可能有更少的静态内容
可用声音
#
alloy
echo
fable
nova
shimmer
onyx
支持的输出格式
#
格式
特点
适用场景
MP3
默认格式
通用场景
Opus
低延迟
网络流媒体和通信
AAC
高效压缩
移动设备播放
FLAC
无损压缩
音频存档
WAV
无压缩
低延迟应用
PCM
原始采样
24kHz, 16位有符号
实时音频流
#
支持语言
#
支持多种语言,包括:
亚洲语言:中文、日语、韩语等
欧洲语言:英语、法语、德语等
其他语言:阿拉伯语、印地语等
注意
:当前声音主要针对英语优化
常见问题
#
Q: 如何控制生成音频的情感?
#
A: 目前没有直接控制机制。大写字母或语法可能影响输出,但效果不确定。
Q: 能创建自定义声音吗?
#
A: 不支持创建自定义声音。
Q: 生成的音频归属权?
#
A: 归创建者所有,但需告知用户这是 AI 生成的音频。
修改于
2026-05-18 03:16:52
上一页
python 使用 语音转文本
下一页
python 使用Embeddings 向量化