數(shù)字金融
網(wǎng)絡(luò)營(yíng)銷(xiāo)推廣
電商服務(wù)
AI大廠(chǎng)的競(jìng)爭(zhēng)日趨白熱化,一邊OpenAI正如火如荼進(jìn)行著為期12天的產(chǎn)品發(fā)布活動(dòng),另一邊谷歌也在頻頻放大招。
12月11日晚,剛剛發(fā)布量子芯片的谷歌,又投下一枚重磅炸彈,正式發(fā)布其最新版大模型Gemini 2.0系列。谷歌表示這是他們迄今為止最強(qiáng)大的人工智能模型,“專(zhuān)為智能體時(shí)代設(shè)計(jì)”,并同時(shí)介紹了多個(gè)智能體應(yīng)用(AI Agent)。
值得一提的是,時(shí)至年末,海內(nèi)外大廠(chǎng)對(duì)AI智能體的布局都熱情高漲,包括谷歌、微軟,以及國(guó)內(nèi)以智譜為代表的廠(chǎng)商都在加速對(duì)這一領(lǐng)域的探索?!半S著越來(lái)越多的大廠(chǎng)布局AI智能體產(chǎn)品和生態(tài),預(yù)計(jì)2025年將會(huì)成為AI智能體商用爆發(fā)的年度?!敝行沤ㄍ蹲C券表示。
“展示了通用AI助手的曙光”
如果說(shuō)去年底發(fā)布的Gemini 1.0是整合和理解信息,那么Gemini 2.0是能夠讓信息更加有用。谷歌在博客中表示,基于此前多模態(tài)方面的進(jìn)展,Gemini 2.0能夠構(gòu)建新的AI智能體,從而離通用助手的愿景更進(jìn)一步。
目前谷歌完全對(duì)外開(kāi)放的新模型是Gemini 2.0 Flash體驗(yàn)版,這是谷歌的主力模型,具有低延遲特性。與此前的1.5 Flash版本相比,Gemini 2.0 Flash在同樣快速的響應(yīng)時(shí)間下性能進(jìn)一步增強(qiáng)。谷歌提到,2.0 Flash 在關(guān)鍵基準(zhǔn)測(cè)試中甚至超越了此前的旗艦?zāi)P?.5 Pro,其速度是1.5 Pro的兩倍。
同時(shí)2.0 Flash還具有新功能,除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,2.0 Flash還可以支持多模態(tài)輸出,例如可以直接生成圖像與文本混合的內(nèi)容,以及原生生成可控的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音(TTS)音頻;它還可以原生調(diào)用Google Search、代碼執(zhí)行以及第三方用戶(hù)定義的函數(shù)等工具。
作為提供給開(kāi)發(fā)者的體驗(yàn)版模型,Gemini 2.0 Flash現(xiàn)在可以通過(guò)Google AI Studio和Vertex AI中的Gemini API獲取,所有開(kāi)發(fā)者均可使用多模態(tài)輸入和文本輸出。該產(chǎn)品將于明年1月全面上市,谷歌稱(chēng)屆時(shí)將推出更多型號(hào)。
對(duì)于Gemini 2.0模型,谷歌表示會(huì)先開(kāi)放給開(kāi)發(fā)者以及受信任的測(cè)試人員,并將其整合到產(chǎn)品中。Gemini 2.0基于谷歌定制的硬件第六代TPU Trillium構(gòu)建而成。谷歌表示,TPU為Gemini 2.0的訓(xùn)練和推理提供100%算力支持。
模型之外,谷歌這次的重頭戲是智能體。在發(fā)布產(chǎn)品的同時(shí),谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在X平臺(tái)上著重提到了智能體Project Astra,認(rèn)為其“展示了通用AI助手的曙光”。
皮查伊表示:“2025年將是令人興奮的一年?!碧酉聞t有評(píng)論表示,2025年會(huì)是屬于智能體的一年。
所謂智能體,簡(jiǎn)單來(lái)說(shuō)是能夠感知環(huán)境,具有獨(dú)立思考和行動(dòng)能力的AI程序。傳統(tǒng)AI通常是指令驅(qū)動(dòng)的,需要人類(lèi)用戶(hù)輸入指令才會(huì)執(zhí)行相應(yīng)的任務(wù),AI智能體則有獨(dú)立解決任務(wù)的能力。
Project Astra是谷歌最初在5月的I/O大會(huì)上首次對(duì)外發(fā)布的AI助手,彼時(shí)主要是對(duì)標(biāo)OpenAI的GPT-4o,其主要功能包括實(shí)時(shí)語(yǔ)音和視覺(jué)處理,能夠通過(guò)手機(jī)或谷歌眼鏡進(jìn)行跨文本、音頻、視頻的多模態(tài)實(shí)時(shí)推理。谷歌在此次的博客中將其稱(chēng)為“使用多模態(tài)理解現(xiàn)實(shí)世界的智能體”。
對(duì)于此次正式發(fā)布的Project Astra,谷歌表示,它能夠流暢地在多種語(yǔ)言和混合語(yǔ)言之間進(jìn)行對(duì)話(huà),并且能夠理解不同口音和生僻單詞。此外,借助Gemini 2.0,Project Astra可以使用Google Search、Google Lens和Google Maps,從而在日常生活中發(fā)揮助手的作用。
谷歌增強(qiáng)了Project Astra的記憶能力,這一助手目前可以記住長(zhǎng)達(dá)10分鐘的會(huì)話(huà)內(nèi)容,并且可以回憶起過(guò)去與它進(jìn)行的更多對(duì)話(huà),能提供個(gè)性化服務(wù)。
在此前5月I/O大會(huì)上的演示中,在詢(xún)問(wèn)Project Astra時(shí),其語(yǔ)音回復(fù)還有一定的延遲,谷歌這次改進(jìn)了這一點(diǎn)。博客提及,借助新的流式處理技術(shù)和原生音頻理解能力,該智能體能夠以接近于人類(lèi)對(duì)話(huà)的延遲來(lái)理解語(yǔ)言。
除了Project Astra的升級(jí)版,這次谷歌發(fā)布的智能體還包括:完成復(fù)雜任務(wù)的智能體Project Mariner,能夠幫助開(kāi)發(fā)者的編碼智能體Jules,以及游戲和其他領(lǐng)域的智能體。
Project Mariner是使用Gemini 2.0構(gòu)建的早期研究原型,可以從瀏覽器開(kāi)始探索人機(jī)交互,它能夠理解和推理瀏覽器頁(yè)面中的信息,包括像素和文本、代碼、圖像和表單等網(wǎng)頁(yè)元素,然后通過(guò)Chrome擴(kuò)展程序使用這些信息為用戶(hù)完成任務(wù)。
在WebVoyager基準(zhǔn)測(cè)試中,Project Mariner作為單個(gè)智能體設(shè)置實(shí)現(xiàn)了83.5% 的工作效率,達(dá)到了先進(jìn)的水平。但谷歌提到,Project Mariner目前的運(yùn)行并非總是準(zhǔn)確,且完成任務(wù)的速度較慢,仍處于早期階段。
谷歌還在博客最后介紹了游戲和其他領(lǐng)域的智能體。就在上周,谷歌剛剛推出了世界基礎(chǔ)模型Genie 2,這是一個(gè)可以從單個(gè)圖像創(chuàng)建無(wú)限3D世界的AI模型?;诖?,谷歌使用Gemini 2.0構(gòu)建了智能體,可以幫助用戶(hù)在電子游戲中做出更好的決策。谷歌稱(chēng),這些游戲智能體可以根據(jù)屏幕上的實(shí)時(shí)畫(huà)面,分析游戲情況,并為用戶(hù)提供下一步的行動(dòng)建議。
除了探索虛擬世界的智能體能力外,谷歌還將Gemini 2.0的空間推理能力應(yīng)用于機(jī)器人領(lǐng)域,嘗試讓智能體在現(xiàn)實(shí)世界中提供幫助。這項(xiàng)研究仍處于初期階段,但谷歌認(rèn)為智能體在現(xiàn)實(shí)環(huán)境中的應(yīng)用前景非常廣闊。
海內(nèi)外大廠(chǎng)積極布局智能體
“AI智能體在現(xiàn)實(shí)中的應(yīng)用是一個(gè)令人振奮且充滿(mǎn)可能性的研究領(lǐng)域?!惫雀璺Q(chēng),團(tuán)隊(duì)正在探索這個(gè)全新的領(lǐng)域,并開(kāi)發(fā)出了一系列原型,幫助人們完成任務(wù)。
不僅是谷歌,臨近2024年底,AI智能體頻頻被行業(yè)人士提及。
近日,天風(fēng)證券發(fā)布研究報(bào)告稱(chēng),海外大廠(chǎng)積極布局智能體構(gòu)建應(yīng)用,AI智能體正在快速發(fā)展,智能體在C端硬件落地正進(jìn)入臨界點(diǎn)。
10月21日,微軟連發(fā)10個(gè)AI智能體,面向銷(xiāo)售、運(yùn)營(yíng)等場(chǎng)景;11月19日,微軟又宣布Copilot Studio平臺(tái)已支持用戶(hù)構(gòu)建自主智能體,同時(shí)發(fā)布5款預(yù)構(gòu)建的智能體。12月,亞馬遜公布了一系列布局AI大模型的進(jìn)展。
在國(guó)內(nèi),以智譜為代表的廠(chǎng)商也開(kāi)始重點(diǎn)發(fā)力AI智能體。10月25日,智譜發(fā)布AutoGLM智能體,可通過(guò)讀取語(yǔ)音指令理解用戶(hù)意圖,并模擬人類(lèi)行為,自動(dòng)完成點(diǎn)外賣(mài)、訂機(jī)票和酒店等操作。11月29日,智譜推出AutoGLM智能體升級(jí)版,支持自主執(zhí)行超過(guò)50步的長(zhǎng)步驟任務(wù),并且能夠在執(zhí)行任務(wù)時(shí)靈活切換不同的APP。
除智譜以外,字節(jié)、百度、騰訊、阿里等科技大廠(chǎng)也開(kāi)始布局智能體,包括字節(jié)的Coze Agent平臺(tái)、百度千帆AgentBuilder智能體開(kāi)發(fā)工具等。
在此前的采訪(fǎng)中,瑞銀證券中國(guó)科技軟件分析師張維璇預(yù)測(cè):“明年是智能體的大年?!?/p>
她表示,最近也看到美國(guó)領(lǐng)先的軟件廠(chǎng)商發(fā)布了AI智能體的產(chǎn)品,通過(guò)智能體將企業(yè)的工作流自動(dòng)化,在前中后臺(tái)的很多應(yīng)用都能看到對(duì)客戶(hù)的效率和用戶(hù)體驗(yàn)的提高,并且這些軟件公司也獲得了提價(jià)。