2026年5月7日,OpenAI 在 API 中发布了新一代实时语音模型。这次更新包含 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,目标是让开发者构建更自然、更低延迟、也更能完成任务的语音 AI 应用。

三款模型分别解决什么问题
GPT-Realtime-2 面向实时语音 Agent。它可以在对话中保持上下文、调用工具、处理用户打断或改口,并支持从 minimal 到 xhigh 的多档推理强度,方便开发者在延迟和复杂任务能力之间做取舍。
GPT-Realtime-Translate 面向实时语音翻译,支持 70 多种输入语言,并可翻译成 13 种输出语言。它适合跨境客服、国际会议、在线教育、媒体内容和创作者平台等需要多人跨语言沟通的场景。
GPT-Realtime-Whisper 是新的流式语音转文字模型,可以在人说话时持续生成低延迟转写结果,适合实时字幕、会议记录、课堂记录、直播转写和客服质检等业务。

语音 AI 从问答走向执行
OpenAI 在官方介绍中强调,新的实时音频能力不只是让语音对话更快,而是让语音界面具备“听、推理、翻译、转写和行动”的完整链路。开发者可以把它接入日程、订单、客服系统、CRM、知识库和业务工具,让用户直接通过自然语音完成任务。
这对 AI 产品的影响很明显:语音不再只是输入方式,而会成为客服、汽车、旅游、医疗、会议、教育和企业协作软件中的核心交互层。对于需要全球化服务的企业,实时翻译和实时转写也会降低多语言内容制作和跨语言支持成本。
可用性和成本信息
根据 OpenAI 官方说明,GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 已在 Realtime API 中提供。GPT-Realtime-2 按音频输入和输出 token 计费,GPT-Realtime-Translate 与 GPT-Realtime-Whisper 按分钟计费。
参考来源:OpenAI 官方发布:Advancing voice intelligence with new models in the API。
© 版权声明
文章版权归作者所有,未经允许请勿转载。


