21世紀經濟報道記者孔海麗 實習生鄧熙涵 北京報道 酷暑到來之前,OpenAI提前引爆了AI之夏。北京時間5月14日凌晨1點,OpenAI舉行春季發布會。會上,重點推出新旗艦模型GPT-4o,以及在ChatGPT中免費提供更多功能。GPT-4o在多模態交互領域開始了現象級橫掃。
人類津津樂道的智能AI助手,面目逐漸清晰:除了尚未具身,無縫語音對話、精確到細節的視覺信息處理、情緒檢測技術及共情能力,幾乎都與真人無異。而比人類更強的是,這個AI情緒穩定,天文地理無所不知,解決問題的能力也是一流。
業內因GPT-4o沸騰起來,盛贊一如往常,“大模型從‘呆瓜’變‘真人’,交互能力革新帶來的可能是場景、用戶數的幾何級放大”;“OpenAI將蠶食情感類人工智能助手的市場,向更具情感、個性更強的人工智能邁進”;“要重新理解機器視覺、聽覺了”……
不過,喧囂之下,也有一些客觀聲音,在審視OpenAI技術層面的進展。GPT-4o的廣泛真實體驗,能否全部達到視頻演示中的極高水準,仍有待驗證。
IDC中國研究總監盧言霞告訴21世紀經濟報道記者,OpenAI本次發布會的現場演示中,視頻采用的還是抽幀處理技術,即Image to text,語音交互還是之前的全雙工技術,只是多模態對話的過程更順暢更自然。但確實進一步提高了類GPT產品的智能化交互能力,弱化了背后的代碼,簡化了交互的流程。GPT-4o不會砸掉所有語音助手的飯碗,反而是大模型在端側的落地迎來雙贏可能。
科幻電影《Her》中所展現的圖景似乎成為可能,人類距離真正的AI Agent還有多遠?是否會引發新一輪的AI Agent變革?可以肯定的是,GPT-4o已經揭開AI行業變化與競爭的新篇章。
“AI背后藏了個真人”
GPT-4o的“o”代表“omni”,象征著全能。該模型多模態交互能力突出,能夠接受文本、音頻和圖像的“混搭”輸入,快速響應完成推理,生成文本、音頻和圖像的組合輸出。
音頻輸入層面,GPT-4o擊穿了此前Siri等智能語音助手的延遲弊端,取得突破性進展。其響應速度之快,達到了人類級別,至短232毫秒,平均320毫秒。
此外,新模型展現出對人類交流習慣的高度理解力和適應性。GPT-4o能以聽起來非常自然的人類聲音說話,并且發出多種語氣詞,表現了此前AI音頻所未能達到的張力和可塑性。
它能夠接受人類交談中的打斷習慣,及時停頓并給出無縫回復,并且保持對上下文的記憶。這種自然的交互體驗,讓人幾乎感覺不到與機器的界限。
視頻輸入方面,GPT-4o可以及時響應高管開啟攝像頭的視頻需求指令,實時解決一元方程的數學計算,整個過程同樣絲滑迅速。
市面上已有一部分情感型人工智能機器人,比普通人工智能助手更能準確識別人類情緒。然而,上述功能多停留在文本中,GPT-4o的情緒檢測功能則擴展至視頻領域。
發布會現場,研究人員將手機攝像頭對準自己的臉,向GPT-4o發起了頗具挑戰性的問題:“我看起來怎么樣?”,GPT-4o初次回答將提問者的臉界定為“木質表面”。隨后,GPT-4o在引導性提問下修正結果,準確分析出提問者的情緒狀態是愉悅的、笑容滿面的。
從底層技術分析,GPT-4o的先進之處在于,它革新了傳統的多模型串聯處理方式,能夠通過單一的神經網絡統一處理所有的輸入和輸出,無論是文本、視覺圖像還是音頻信息,都能得到精準高效的解析和回應。
OpenAI并不是首家運用情感智能技術的公司。Inflection AI發布的Pi已能成熟運用大語言模型的對話共情回復技術,實現人類“嘴替”的效果,提供沉浸式的虛擬情感陪伴。
英偉達高級研究科學家兼人工智能代理負責人Jim Fan發文稱贊GPT-4o的情感能力,令人聯想到 2013 年的科幻電影《Her》。這部電影講述了人機親密關系——遭遇離婚風波的男主角西奧多與人工智能系統薩曼莎成為靈魂伴侶。
Jim Fan認為,OpenAI將蠶食Character.AI等情感類人工智能助手的市場,向更具情感、個性更強的人工智能邁進。
繼發布文生視頻大模型Sora后,GPT-4o有望成為邁向多模態智能體的又一座里程碑。
巨頭焦慮與端側革命
OpenAI的大模型庫再添GPT-4o一員猛將,預示著AI Agent已至新賽點,再次撥快了人類循序漸進邁向GAI的時針。
從技術定義來看,AI Agent是通用人工智能的終極目標,以大語言模型為大腦驅動,不需要人類的指揮,具有自主性,能獨立思考并運行相應程序。
市場嗅到了技術帶來的機會風口,AI Agent成為科技巨頭競相追逐的前沿方向。目前,已經出現不少泛化的Agent概念產品,微軟的Copilot,谷歌的Gemini都是這一隊列中曾被寄予厚望的數字助手。
如今,GPT-4o的加速推出革新了智能交互的表現。前DCCI互聯網數據中心創始人胡延平認為,GPT-4o重新定義了機器視覺、聽覺和攝像頭的交互模式,應用爆發力不可估量。
新技術進展為巨頭們的錯失恐懼又添一把火。據悉,谷歌計劃在2024年I/O開發者大會上推出個性化數字助手“Pixie”,由Gemini驅動,有望整合多模態功能。
微軟也在蓄力開拓AI Agent的新場景。為了打造個性化聊天機器人,3月19日,微軟已與Inflection AI達成協議,獲得其核心技術授權;針對現有最接近AI Agent的Copilot,微軟正努力解決如何為生成式AI提供良好提示詞,為Copilot for Micorosft 365提供Prompt補全功能。
AI Agent的爆發之年,蘋果同樣意圖升級被詬病“古老過時”的Siri。有知情人士稱,蘋果或將在iOS 18中引入由ChatGPT 提供支持的聊天機器人。
更自然、更“類人”的GPT-4o掀起的巨大波瀾,不僅影響上游廠商,還將波及產業鏈下游的終端廠商。OpenAI此次發布會呈現的新模型多基于手機端場景,為處于產業爆發前夜的AI手機產業帶來新想象。
市面上AI手機等端側智能體的生態離不開大模型技術底座,智能終端廠家需要重新審視底層大模型能力。
相較于單個AI應用,AI手機的賣點一直是人格化、記憶、感知和管理能力,跨APP交互能力。而具備情緒價值和自然交互能力的GPT-4o走入市場,要么會顛覆一眾AI手機,要么會讓留下來的AI手機“如虎添翼”。
盧言霞告訴21世紀經濟報道記者,“GPT-4o意味著大模型在端側的落地更進一步。短時間內,肯定是誰的端側交互能力強,誰就會贏得用戶。在中長周期內,后來者也會迎頭趕上。應該說,這是端側與AI助手的雙贏,畢竟上游廠商沒有精力面向每個場景做優化與工程化,還是需要產業鏈的協作?!?/p>
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22
-
北京環球度假區將開啟環球中國年在表演隊伍
北京環球度假區將開啟環球中國年北京青年報記者從北京環球度假區獲悉,2022年1月22日至2...詳情
2022-01-17