微软正式发布 GPT-realtime 模型，主打更逼真语音与多模态输入

关注+2025-09-05作者：学臣

微软正式宣布，其最新的语音转语音（S2S）模型 GPT-realtime 已在 Azure AI Foundry 平台上正式发布。这款新模型将微软在语音技术方面的多项改进整合到一个统一的产品中，其核心优势聚焦于自然的语言处理、卓越的音频质量以及更精准的指令跟随能力。

开发者现在可以通过全新的 Real-time API 访问 GPT-realtime。该模型旨在提供更自然、富有表现力的语音输出和更高质量的音频体验。作为此次发布的一部分，微软还推出了两种全新的语音选项——Marin 和 Cedar，旨在为用户带来逼真且清晰的语音合成效果。

微软在公告中强调了新模型的几项关键改进，包括增强的功能调用能力、更高的指令执行准确性，以及创新的图像输入支持。这项新功能允许用户在语音对话中加入图像并进行讨论，从而实现多模态交互，而无需依赖视频流。

除了技术层面的升级，微软还对定价模型进行了调整。与之前的 gpt-4o-realtime 预览版本相比，正式版的 gpt-realtime 价格降低了20%，成本将依据每百万代币（token）的使用量进行计算。

此次发布标志着微软正致力于为广大开发者和企业扩展其实时 AI 能力。通过将富有表现力的语音合成、高质量音频和多模态输入相结合，GPT-realtime 有望为从高级客户支持系统到创新的辅助功能工具等广泛的应用场景提供强大的技术支持。