數(shù)字金融
網(wǎng)絡(luò)營銷推廣
電商服務(wù)
來源:硬AI
高質(zhì)量數(shù)據(jù)的緊缺正成為AI發(fā)展的重要障礙。
4月1日,據(jù)媒體報道,隨著OpenAI、Google等企業(yè)不斷深入發(fā)展AI技術(shù),科技巨頭們遇到了一個新問題:現(xiàn)有的互聯(lián)網(wǎng)信息量可能不足以支撐他們訓練更先進的AI系統(tǒng)。
科技巨頭的AI系統(tǒng),比如能與人類聊天的ChatGPT,是通過學習網(wǎng)上的信息變得越來越聰明的。但現(xiàn)在,高質(zhì)量、有用的信息日益緊缺,同時,一些網(wǎng)站開始限制AI公司訪問他們的數(shù)據(jù)。據(jù)業(yè)界一些高管和研究人員表示,AI行業(yè)對高質(zhì)量文本數(shù)據(jù)的需求可能在兩年內(nèi)超過供應(yīng),這將可能減緩AI技術(shù)的發(fā)展速度。
面對信息不足的問題,AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓練它們的下一代智能模型GPT-5。有的公司甚至創(chuàng)造合成數(shù)據(jù)來學習,盡管這種方法被許多研究人員認為可能會導致系統(tǒng)發(fā)生嚴重故障,但不失為克服數(shù)據(jù)短缺的一種潛在途徑。
據(jù)悉,這些努力大多保密進行,因為找到有效的解決方案可能成為企業(yè)在激烈競爭中的關(guān)鍵優(yōu)勢。隨著數(shù)據(jù)需求不斷增長,找到新的學習材料、與數(shù)據(jù)所有者的合作,讓AI系統(tǒng)變得更加聰明,就成了這個行業(yè)的重要備戰(zhàn)區(qū)。
OpenAI的GPT-5面臨10萬億到20萬億tokens的數(shù)據(jù)短缺
AI語言模型的構(gòu)建依賴于從互聯(lián)網(wǎng)上收集的大量文本數(shù)據(jù),這些數(shù)據(jù)包括科學研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”,tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關(guān)系和模式,學會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創(chuàng)作詩歌。
模型的能力在很大程度上取決于它訓練的數(shù)據(jù)量。通常情況下,數(shù)據(jù)越多,模型的性能就越好,因為它有更多的例子來學習不同的語言用法和復雜性。
OpenAI通過為其GPT系列模型提供海量訓練數(shù)據(jù),不斷提升性能,借此成為世界頂尖AI公司。這展示了大數(shù)據(jù)訓練對于AI發(fā)展的重要性。
但是,隨著GPT-4模型的不斷擴大,OpenAI對數(shù)據(jù)的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計,GPT-4訓練涉及的數(shù)據(jù)量高達12萬億tokens,而未來模型,如GPT-5,可能需要60萬億到100萬億tokens。因此,即便是利用所有可用的高質(zhì)量語言和圖像數(shù)據(jù),研發(fā)GPT-5仍可能面臨10萬億到20萬億tokens的數(shù)據(jù)短缺。至于如何彌補這一巨大的數(shù)據(jù)缺口,目前尚無明確方案。
據(jù)媒體報道,為應(yīng)對數(shù)據(jù)短缺挑戰(zhàn),AI公司正在嘗試各種方法來尋找新的信息源。Meta創(chuàng)始人扎克伯格近期強調(diào),公司通過Facebook和Instagram等平臺擁有的大量數(shù)據(jù),為其AI研發(fā)提供了重要優(yōu)勢。扎克伯格表示,Meta能夠利用網(wǎng)絡(luò)上數(shù)以百億計的公開共享圖片和視頻,這些數(shù)據(jù)的規(guī)模超過了大多數(shù)常用數(shù)據(jù)集,盡管其中高質(zhì)量數(shù)據(jù)的比例尚不明確。
而OpenAI則考慮使用其自動語音識別工具Whisper轉(zhuǎn)錄的高質(zhì)量視頻和音頻示例。此外,OpenAI還在考慮建立一個數(shù)據(jù)市場,以評估每個數(shù)據(jù)點對模型訓練的貢獻并據(jù)此向內(nèi)容提供者支付費用,這一創(chuàng)新想法也引起了Google的關(guān)注。
Epoch研究所預測AI數(shù)據(jù)短缺危機將推遲至2028年
兩年前,Villalobos和他的同事寫道,到2024年年中,對高質(zhì)量數(shù)據(jù)的需求超過供給的可能性為50%,到2026年發(fā)生這種情況的可能性為90%。自那以后,他們變得更加樂觀,在AI研究員Pablo Villalobos及其團隊的審慎評估下,新的預期顯示,這種短缺風險將延遲至2028年。
這項樂觀的更新基于對當前數(shù)據(jù)質(zhì)量和可用性的深刻洞察。Villalobos指出,互聯(lián)網(wǎng)上的絕大多數(shù)數(shù)據(jù)并不適合作為AI訓練材料。在無盡的信息流中,只有一小部分數(shù)據(jù)(遠低于先前預計)能對AI模型的增長和發(fā)展做出實質(zhì)性貢獻。
同時,各大社交媒體平臺和新聞出版商已開始限制其數(shù)據(jù)被用于AI訓練。他們擔心如果數(shù)據(jù)被自由用于AI訓練,可能導致內(nèi)容創(chuàng)造者和平臺本身失去應(yīng)得的經(jīng)濟回報。
此外,普羅大眾對于個人隱私的保護意識顯著提升,許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓練的意愿較低,人們可能擔心他們的隱私可能會受到侵犯。
最近,一位女記者就OpenAI最新模型Sora的訓練數(shù)據(jù)向CTO Murati提問時,Murati未能明確回答,這引發(fā)了業(yè)界對OpenAI管理層對于訓練數(shù)據(jù)來源的關(guān)注度的質(zhì)疑。這一事件觸發(fā)了更廣泛的討論,關(guān)于公共領(lǐng)域數(shù)據(jù)的所有權(quán)問題——我們在網(wǎng)絡(luò)上發(fā)布的內(nèi)容,究竟是屬于個人私密還是公共共享的資產(chǎn)?
因此,這些因素共同導致了數(shù)據(jù)獲取的困境。隨著用戶和監(jiān)管機構(gòu)對數(shù)據(jù)使用的監(jiān)控趨嚴,研究者們必須在保護隱私與數(shù)據(jù)采集之間找到新的均衡。