OpenAI 发布三款音频模型，提升语音交互智能化

OpenAI_发布三款音频模型，提升语音交互智能化图1
OpenAI 发布三款音频模型，提升语音交互智能化

OpenAI 在 Realtime API 中推出三款新模型，旨在提升语音应用的推理能力与实时交互体验：

1. GPT-Realtime-2：首款具备 GPT-5 级推理能力的语音模型，上下文窗口由 32K 扩大至 128K，支持五档推理力度调节，显著提升了复杂指令遵循和工具调用的可靠性。
2. GPT-Realtime-Translate：实时语音翻译模型，支持 70 多种输入语言和 13 种输出语言，能在保持语速同步的同时处理方言与专业术语。
3. GPT-Realtime-Whisper：流式语音转文字模型，专为低延迟场景设计，适用于实时生成会议纪要、字幕或驱动语音助手持续理解。

GPT-Realtime-2 的输入与输出定价分别为每百万 token 32 美元和 64 美元；Translate 与 Whisper 按分钟计费，单价分别为 0.034 美元和 0.017 美元。

附件内容

OpenAI

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途。本站所有信息均来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序，请支持正版，购买注册，得到更好的正版服务。如有侵权不妥之处请致信 E-mail：admin@kongyu.xin 我们会积极处理。敬请谅解

THE END

OpenAI 发布三款音频模型，提升语音交互智能化

请登录后发表评论