您現(xiàn)在的位置是:居心不良網(wǎng) > 探索
OpenAI發(fā)布語音模型GPT
居心不良網(wǎng)2025-12-17 02:32:04【探索】3人已圍觀
簡介OpenAI正式發(fā)布語音模型GPT-realtime。據(jù)介紹,GPT-realtime是一款專注于語音AI Agent的多模態(tài)模型,能夠生成高度自然流暢的語音,精準還原人類語調、情感和語速的豐富變化。
OpenAI正式發(fā)布語音模型GPT-realtime。發(fā)布
據(jù)介紹,語音GPT-realtime是模型一款專注于語音AI Agent的多模態(tài)模型,能夠生成高度自然流暢的發(fā)布語音,精準還原人類語調、語音情感和語速的模型豐富變化。該模型支持圖像理解,發(fā)布并可結合語音或文本對話使用,語音非常適合應用于客服、模型教育、發(fā)布金融、語音醫(yī)療等領域,模型用于構建高質量的發(fā)布語音智能體。

官方表示,語音新模型在復雜指令遵循、模型工具精確調用以及生成更自然、更具表現(xiàn)力的語音方面表現(xiàn)卓越。尤其在重復字母與數(shù)字、逐字朗讀免責聲明、語句間無縫切換語言等場景中,GPT-realtime展現(xiàn)出優(yōu)秀的適應能力。
該模型還具備出色的上下文理解能力,可準確捕捉非語言線索(如笑聲),并實時調整語音語氣,實現(xiàn)諸如“帶法國口音的友好語調”或“語速較快的專業(yè)語調”等多樣化表達。
此外,GPT-realtime新增了“Cedar”和“Marin”兩種語音風格,并對現(xiàn)有八種語音效果進行了全面優(yōu)化。

很贊哦!(341)







