OpenAI发布新一代实时语音模型：GPT-Realtime-2支持推理、翻译与实时转写

20 0

2026年5月7日，OpenAI 在 API 中发布了新一代实时语音模型。这次更新包含 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，目标是让开发者构建更自然、更低延迟、也更能完成任务的语音 AI 应用。

三款模型分别解决什么问题

GPT-Realtime-2 面向实时语音 Agent。它可以在对话中保持上下文、调用工具、处理用户打断或改口，并支持从 minimal 到 xhigh 的多档推理强度，方便开发者在延迟和复杂任务能力之间做取舍。

GPT-Realtime-Translate 面向实时语音翻译，支持 70 多种输入语言，并可翻译成 13 种输出语言。它适合跨境客服、国际会议、在线教育、媒体内容和创作者平台等需要多人跨语言沟通的场景。

GPT-Realtime-Whisper 是新的流式语音转文字模型，可以在人说话时持续生成低延迟转写结果，适合实时字幕、会议记录、课堂记录、直播转写和客服质检等业务。

GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper 能力概览

语音 AI 从问答走向执行

OpenAI 在官方介绍中强调，新的实时音频能力不只是让语音对话更快，而是让语音界面具备“听、推理、翻译、转写和行动”的完整链路。开发者可以把它接入日程、订单、客服系统、CRM、知识库和业务工具，让用户直接通过自然语音完成任务。

这对 AI 产品的影响很明显：语音不再只是输入方式，而会成为客服、汽车、旅游、医疗、会议、教育和企业协作软件中的核心交互层。对于需要全球化服务的企业，实时翻译和实时转写也会降低多语言内容制作和跨语言支持成本。

可用性和成本信息

根据 OpenAI 官方说明，GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 已在 Realtime API 中提供。GPT-Realtime-2 按音频输入和输出 token 计费，GPT-Realtime-Translate 与 GPT-Realtime-Whisper 按分钟计费。

参考来源：OpenAI 官方发布：Advancing voice intelligence with new models in the API。

AI搜索正在大洗牌：DeepSeek、Agent与内容生态重构，谁会吃下下一波流量？

2个月前

1410

1300

OpenAI发布新一代实时语音模型：GPT-Realtime-2支持推理、翻译与实时转写

三款模型分别解决什么问题

语音 AI 从问答走向执行

可用性和成本信息

OpenAI发布GPT-5.4：原生电脑操作、Excel及金融分析能力全面进化

没有更多了...

相关文章

AI搜索正在大洗牌：DeepSeek、Agent与内容生态重构，谁会吃下下一波流量？

2025年3月8日AI资讯总结：技术突破与生态革新并行

2025年3月9日AI资讯：小米SU7 Ultra车型AI系统

Manus爆火背后：AI Agent正在改写2026年生产力格局，普通人该如何抓住机会？

热门AI工具

OpenAI发布新一代实时语音模型：GPT-Realtime-2支持推理、翻译与实时转写

三款模型分别解决什么问题

语音 AI 从问答走向执行

可用性和成本信息

OpenAI发布GPT-5.4：原生电脑操作、Excel及金融分析能力全面进化

没有更多了...

相关文章

AI搜索正在大洗牌：DeepSeek、Agent与内容生态重构，谁会吃下下一波流量？

2025年3月8日AI资讯总结：技术突破与生态革新并行

2025年3月9日AI资讯：小米SU7 Ultra车型AI系统

Manus爆火背后：AI Agent正在改写2026年生产力格局，普通人该如何抓住机会？

热门AI工具

标签云