OpenAI创新语音模型登场，成本大降功能升级，OpenAI推出新语音模型，开启语音交互新时代

半荷mio • 2025年3月22日 05:50 • 国际动态 • 阅读 10

OpenAI近日推出的一系列创新语音模型，包括gpt – 4o – transcribe、gpt – 4o – mini – transcribe和gpt – 4o – mini – tts，阐述了这些模型在语音识别和处理方面的显著突破，如gpt – 4o – mini的高性价比、GPT – 4o的多语言处理能力等。

近日，科技界再度迎来重磅消息，OpenAI宣布推出一系列令人瞩目的创新语音模型。这其中包括gpt – 4o – transcribe、gpt – 4o – mini – transcribe以及gpt – 4o – mini – tts 。这些模型的问世，在语音识别和处理领域取得了显著的突破，为该领域的发展注入了新的活力。

OpenAI创新语音模型登场，成本大降功能升级，OpenAI推出新语音模型，开启语音交互新时代

在此次推出的众多模型中，gpt – 4o – mini模型凭借其高性价比和强大的功能脱颖而出。与GPT – 4o相比，gpt – 4o – mini在成本上大幅降低，降低幅度达到了96%至97%。而且，相较于GPT – 3.5 Turbo，它也便宜了60%至70%。据悉，gpt – 4o – mini的API价格定为15美分/100万Tokens输入和60美分/100万Tokens输出。如此实惠的价格，无疑为广大开发者提供了一个更为经济实惠的选择，让更多的开发者能够参与到基于这些模型的开发中来。

GPT – 4o模型同样表现卓越。它具备处理50种不同语言的能力，这一特性大大提高了语音识别的适用范围。无论是哪种语言的语音，GPT – 4o都能进行有效的识别和处理。此外，该模型在响应速度和质量上均有显著提升。它能在最短232毫秒内对音频输入做出反应，这个反应时间已经接近人类对话的反应时间。更值得一提的是，GPT – 4o还具备读取人的情绪的能力，这使得人机交互更加自然和流畅，仿佛是人与人之间在进行真实的交流。

新推出的语音模型在语音转文本(STT)方面也有着出色的表现。在口音适应、嘈杂环境处理以及不同语速识别方面，它们都优于现有的解决方案。这使得这些模型在呼叫中心、会议记录等场景中更具实用性。想象一下，在嘈杂的会议现场，这些模型依然能够准确地将语音转化为文本，为会议记录提供极大的便利。同时，文本转语音(TTS)模型也给开发者带来了更多的创作空间。它允许开发者设定语音风格，例如模拟富有同理心的客户服务代表，为用户提供更具表现力和温度的语音体验。

OpenAI新推出的一系列语音模型，如gpt – 4o – transcribe等。gpt – 4o – mini模型性价比高，成本大幅降低；GPT – 4o模型多语言处理能力强、响应快且能读取情绪；新模型在语音转文本和文本转语音方面表现出色，具有很强的实用性和创新性。本文总结

原创文章，作者：半荷mio，如若转载，请注明出处：https://www.xiaoyaoxin.com/archives/3100.html