亚洲ww无码ww专区1234_亚洲AV综合色区无码三区30p_丰满二级精品一区_美女黄频视频大全免费的正片_久久综合九色综合网站

UC伯克利教授驚人預測:2030年GPT可執(zhí)行人類180萬年工作,一天學2500年知識

2023-08-14 16:39:56    來源:商業(yè)新知網

現在是GPT-4,時間是2023年。

7年之后,2030年,那時的GPT會是什么樣子?

UC伯克利的一位機器學習教授Jacob Steinhard發(fā)表長文,對2030年的GPT(以下簡稱為GPT 2030)作了預測。


(資料圖片)

為了更好地進行預測,Jacob查詢了各種來源的信息,包括經驗縮放定律、對未來計算和數據可用性的預測、特定基準的改進速度、當前系統(tǒng)的經驗推理速度,以及未來可能的并行性改進。

概括來看,Jacob認為,GPT 2030會在以下幾個方面超過人類工作者。

1. 編程、黑客任務、數學、蛋白質設計。

2. 工作和思考的速度:預計GPT 2030每分鐘處理的單詞是人類的5倍,而每FLOP都多5倍的話,總共就是125倍。

3. GPT 2030可以進行任意復制,并進行并行運算。算力足夠的話,它足以完成人類需要執(zhí)行180萬年的工作,結合2中的結論,這些工作只需2.4個月,就能完成。

4. 由于具有相同的模型權重,GPT的副本之間可以共享知識,實現快速的并行學習。因此,GPT可以在1天內學完人類需要學2500年的知識。

5. 除了文本和圖像,GPT還能接受其它模態(tài)的訓練,甚至包括各種違反直覺的方式,比如分子結構、網絡流量、低級機器碼、天文圖像和腦部掃描。因此,它可能會對我們經驗有限的領域具有很強的直覺把握,甚至會形成我們沒有的概念。

當然,除了飛躍的性能,Jacob表示,GPT的濫用問題也會更加嚴重,并行化和高速將使模型嚴重威脅網絡安全。

它的快速并行學習還會轉向人類行為,而因為自己已經掌握了「千年」的經驗,它想要操控和誤導人類也會很輕易。

?

在加速方面,最大的瓶頸是GPT的自主性。

在數學研究這種可以自動檢查工作的領域,Jacob預測,GPT 2030將超過大多數專業(yè)數學家。

在機器學習領域,他預測GPT將能獨立完成實驗并生成圖表和論文,但還是需要人類科研者給出具體指導、評估結果。

在這兩種情況下,GPT 2030都將是科研過程中不可或缺的一部分。

Jacob表示,他對GPT 2030特性的預測并不是從今天的系統(tǒng)中直觀得出的,它們可能是錯誤的,因為ML在2030年會是什么樣子,還存在很大的不確定性。

然而,無論GPT 2030會是什么樣子,Jacob都相信,它至少是一個更好版本的GPT-4。

所以,我們現在就該為AI可能造成的影響(比如影響1萬億美元、1000萬人的生命,或者對人類社會進程造成重大破壞)做好準備,而不是在7年以后。

特定能力

GPT 2030應該會具有超人的編碼、黑客和數學能力。

在閱讀和處理大型語料庫,以獲取模式和見解以及回憶事實的能力方面,它都會能力驚人。

因為AlphaFold和AlphaZero在蛋白質結構預測和游戲方面都具有超人的能力,GPT 2030顯然也可以,比如讓它在與AlphaFold/AlphaZero模型相似的數據上進行多模態(tài)訓練。

編程能力

GPT-4在LeetCode問題上的表現優(yōu)于訓練截止后的人類基線,并通過了幾家大型科技公司的模擬面試。

他們的進步速度也很快,從GPT-3到GPT-4,直接躍升了19%。

在更具挑戰(zhàn)性的CodeForces競賽中,GPT-4的表現較差,但AlphaCode與CodeForces競爭對手的中值水平相當。

在更難的APPS數據集上,Parcel進一步超越了AlphaCode(7.8%->25.5%)。

展望未來,預測平臺Metaculus給出的中位數是2027年,屆時在APPS上將有80%的AI,將超越除了最優(yōu)秀程序員之外的所有人類。

黑客

Jacob預測,GPT 2030的黑客能力將隨著編程能力的提高而提高,而且,ML模型可以比人類更有規(guī)模、更認真地搜索大型代碼庫中的漏洞。

事實上,ChatGPT早已被用于幫助生成漏洞。

ChatGPT生成的網絡釣魚郵件

數學

Minerva在競賽數學基準(MATH)上的準確率達到50%,優(yōu)于大多數人類競爭對手。

而且,它的進步速度很快(一年內>30%),而且通過自動形式化、減少算法錯誤、改進思維鏈和更好的數據的加持,取得了顯著的成果。

Metaculus預測,到2025年GPT的數學成績將達到92%,AI在國際數學奧賽中獲得金牌的中位數為2028年,能夠比肩全世界成績最拔尖的高中生。

Jacob個人預計,GPT 2030在證明定理方面將優(yōu)于大多數專業(yè)數學家。

信息處理

回憶事實和處理大型語料庫,是語言模型的記憶能力和大型上下文窗口的自然結果。

根據經驗,GPT-4在MMLU上的準確率達到 86%,這是一套廣泛的標準化考試,包括律師考試、MCAT以及大學數學、物理、生物化學和哲學;即使考慮到可能存在測試污染,這也超出了任何人類的知識廣度。

關于大型語料庫,有研究人員使用GPT-3構建了一個系統(tǒng),該系統(tǒng)發(fā)現了大型文本數據集中的幾種以前未知的模式,以及某篇工作中的縮放率,這表明模型很快就會成為「超人」。

這兩項工作都利用了LLM的大型上下文窗口,目前該窗口已超過100,000個token,并且還在不斷增長。

更一般地說,機器學習模型具有與人類不同的技能特征,因為人類和機器學習適應的是非常不同的數據源(前者是通過進化,后者是通過海量的互聯網數據)。

當模型在視頻識別等任務上達到人類水平時,它們在許多其他任務(例如數學、編程和黑客攻擊)上可能會成為超人。

此外,隨著時間的推移,會出現更大的模型和更好的數據,這會讓模型功能變得更為強大,不太可能低于人類水平。

雖然當前的深度學習方法可能在某些領域達不到人類水平,但在數學這類人類進化并不擅長的領域,它們很可能會顯著超越人類。

推理速度

為了研究ML模型的速度,研究人員將測量ML模型生成文本的速度,以每分鐘想到380個單詞的人類思維速度為基準。

使用OpenAI的chat completions API,GPT-3.5每分鐘可以生成1200個單詞 (wpm),而GPT-4可以生成370wpm,截至2023年4月上旬。

像Pythia-12B這樣的小型開源模型,通過在A100 GPU上使用開箱即用的工具,至少可以生成1350個單詞wpm, ,通過進一步優(yōu)化,可能還會達到2倍。

因此,如果我們考慮截至4月份的OpenAI模型,它要么大約是人類速度的3倍,要么等于人類速度。因為加速推理存在強大的商業(yè)化壓力,未來模型的推理速度還會更快。

事實上,根據Fabien Roger 的跟蹤數據,在撰寫本文之前的一周,GPT-4的速度已經提高到約540wpm(12個token/秒);這表明空間仍然很大。

Steinhard的中位數預測是,模型每分鐘生成的單詞數將是人類的5倍(范圍:[0.5x, 20x]),這大致是進一步增加的實際收益會遞減的地方。

重要的是,機器學習模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代價是吞吐量降低k倍(換句話說,模型的$$k^3$$并行副本可以替換為速度快$$k^2$$倍的單個模型)

這可以通過并行平鋪方案來完成,理論上該方案甚至適用于$$k^2$$這樣的大值,可能至少為100,甚至更多。

因此,通過設置k=5,可以將5倍人類速度的模型,加速到125倍的人類速度。

當然,速度并不一定與質量相匹配:GPT 2030將具有與人類

不同的技能特征,在一些我們認為容易的任務上,它會失敗,而在我們認為困難的任務上,它會表現出色。

因此,我們不應將GPT 2030視為「加速的人類」,而應將其視為有潛力發(fā)展出一些違反直覺技能的「超級加速工人」。

盡管如此,加速仍然很有用。

對于提速125倍的語言模型,只要在GPT 2030的技能范圍之內,我們需要一天時間的學會的認知動作,它可能在幾分鐘內就會完成。

運用前面提到的黑客攻擊,機器學習系統(tǒng)可以快速生成漏洞或攻擊,而人類卻生成得很緩慢。

吞吐量和并行副本

模型可以根據可用的計算和內存任意復制,因此它們可以快速完成任何可以有效并行的工作。

此外,一旦一個模型被微調到特別有效,更改就可以立即傳播到其他實例。模型還可以針對特定的任務進行蒸餾,從而運行得更快、更便宜。

一旦模型經過訓練,可能會有足夠的資源來運行模型的多個副本。

因為訓練模型就需要運行它的許多并行副本,并且組織在部署時,仍然擁有這些資源。因此,我們可以通過估計訓練成本,來降低副本數量。

比如,訓練GPT-3的成本,足以運行9x10^11次前向傳播。用人類等價的術語來說,人類以每分鐘380個單詞的速度思考,一個單詞平均占1.33個token,因此9x10^11次前向傳播相當于以人類速度工作約3400年。

因此,該組織可以以人類工作速度運行3400個模型的并行副本一整年,或者以5倍人類速度運行相同數量的副本2.4個月。

接下來,我們可以試著為未來的模型預測同樣的「訓練過剩」(訓練與推理成本的比率)。這個數會更大,主要原因就是這個數值大致與數據集大小成正比,并且數據集會隨著時間的推移而增加。

隨著自然產生的語言數據被耗盡,這一趨勢將會放緩,但新的模式以及合成或自我生成的數據仍將繼續(xù)推動這一趨勢。

上面的預測有些保守,因為如果組織購買額外的算力,模型可能會在比訓練時使用的資源更多的資源上運行。

一個大致的估計顯示,GPT-4的訓練占用了世界上大約0.01%的計算資源,在未來它的訓練和運行將占用全世界更大比例的算力,因此在訓練后進一步擴展的空間較小。

盡管如此,如果組織有充分的理由這樣做,他們仍然可以將運行的副本數量增加到另一個數量級。

知識共享

模型的不同副本可以共享參數更新。

例如,ChatGPT可以部署到數百萬用戶,從每次交互中學習一些東西,然后將梯度更新傳播到中央服務器,隨后應用于模型的所有副本。

通過這種方式,ChatGPT一小時內觀察到的人性就比人類一生(100萬小時 = 114年)還要多。并行學習可能是模型最重要的優(yōu)勢之一,這意味著它們可以快速學習任何缺失的技能。

并行學習的速度取決于模型同時運行副本的數量、獲取數據的速度以及數據是否可以有效地并行利用。

即使是極端的并行化,也不會對學習效率造成太大影響,因為在實踐中,數以百萬計的批大小是很常見的,并且梯度噪聲尺度預測在某個「關鍵批大小」以下,學習性能的降低將是最小的。

因此,我們重點關注并行副本和數據采集。

以下兩個估計表明,可以讓至少~100萬個模型副本以人類速度并行學習。

這相當于人類每天學習2500年,因為100萬天=2500年。

我們首先使用了上文第3節(jié)的數字,得出的結論是訓練模型的成本足以模擬模型180萬年的工作(根據人類速度進行調整)。

假設訓練運行本身持續(xù)了不到1.2年,這意味著訓練模型的組織擁有足夠的GPU,以人類速度運行150萬個副本。

第二個估算考慮了部署該模型的組織的市場份額。

例如,如果一次有100萬個用戶查詢模型,那么組織必然有資源來提供100萬個模型副本。

截至2023年5月,ChatGPT擁有1億用戶,截至2023年1月,每天有1300萬活躍用戶。

假設一般用戶請求的是幾分鐘的模型生成文本,因此1月份的數字可能意味著每天大約5萬人的文本。

然而,未來的ChatGPT式模型很可能會是這個數字的20倍,達到每天2.5億活躍用戶或更多,因此每天100萬人的數據,是相當合理的。

作為參考,Facebook每天有20億日活用戶。

工具、模態(tài)和執(zhí)行器

過去看,GPT風格的模型主要是在文本和代碼上進行訓練,與外部世界的交互方面,除了通過聊天對話之外能力有限。

然而,現在情況正在迅速改變,因為模型正在接受其他模態(tài)(如圖像)的訓練,并且開始與物理執(zhí)行器進行接口交互。

此外,模型不會局限于文本、自然圖像、視頻和語音等人類中心的模態(tài),它們很可能還將接受對于我們來說陌生的模態(tài)的訓練,比如網絡流量、天文圖像或其他大規(guī)模數據來源。

工具

最近發(fā)布的模型使用了很外部工具,比如ChatGPT插件。

模型已經可以編寫并執(zhí)行代碼,說服人類采取行動,進行API調用、交易,并潛在地執(zhí)行網絡攻擊。

這種能力在未來還會進一步發(fā)展。

新模態(tài)

現在已經有了大規(guī)模的開源視覺-語言模型,比如OpenFlamingo,而在商業(yè)領域,GPT-4和Flamingo都是在視覺和文本數據上進行訓練的。研究人員還在嘗試更多非傳統(tǒng)的模態(tài)配對,例如蛋白質和語言。

由于兩個原因,我們應該預計大規(guī)模預訓練模型的模態(tài)將繼續(xù)擴展。

首先,從經濟上講,將語言與不太熟悉的模態(tài)(如蛋白質)配對是有用的,這樣用戶可以從解釋中受益,并高效地進行修改。這意味著在蛋白質、生物醫(yī)學數據、CAD模型以及與經濟部門相關的其他模態(tài)上進行多模態(tài)訓練。

其次,隨著語言數據的耗盡,模型開發(fā)者將尋找新型的數據,來繼續(xù)從規(guī)模效應中受益。

除了傳統(tǒng)的文本和視頻,一些最大的現有數據來源是天文數據(每天將很快達到exabytes級)和基因組數據(每天約0.1exabytes)。這些海量數據源有可能被用于訓練GPT 2030。

使用非傳統(tǒng)模態(tài),意味著GPT 2030可能會具有非直觀的能力。它可能會比我們更好地理解星星和基因,即使它并不具備體力。

這可能會帶來一些意外發(fā)現,例如設計新穎的蛋白質。

執(zhí)行器

現在,大模型還開始使用物理執(zhí)行器:ChatGPT已經用于機器人控制了,OpenAI正在投資一家人形機器人公司。

然而,與數字領域相比,物理領域的數據收集成本要高得多,而且人類在進化上更適應物理領域(因此,機器學習模型要與我們競爭的門檻更高)。

Steinhard預測,在2030年,AI模型能自主組織一輛法拉利的概率是40%。

GPT-2030的影響

當像GPT-2030這樣的AI出現,會對社會意味著什么?

可以推測,它會顯著加速某些研究領域的發(fā)展,也有很大可能被濫用。

優(yōu)勢

GPT-2030,代表著一支龐大、高適應性和高吞吐量的員工隊伍。

它可以在并行副本中完成180萬年的工作,其中每個副本的運行速度是人類的5倍。

這意味著我們可以(在并行性約束的前提下)在2.4個月內,模擬180萬個智能體工作一年的情況。

我們可以支付5倍的FLOP費用,來獲得額外的25倍加速(達到人類速度的125倍),因此我們還可以在3天內,模擬14000個智能體工作一年的情況。

限制

限制這個數字化勞動力的,主要有三個障礙:技能要求、實驗成本和自主性。

首先,GPT-2030的技能要求與人類不同,使其在某些任務上表現較差)。

其次,模擬的工作者仍然需要與世界接觸以收集數據,這會產生時間和計算成本。

最后,現在的模型在進行一連串思考后,只能生成幾千個token,之后就會「卡住」,進入一個不再產生高質量輸出的狀態(tài)。

或許GPT-2030在被重置或通過外部反饋引導之前,能夠連續(xù)運行數個相當于人類工作日的時間。

如果模型以5倍的加速運行,這意味著它們每隔幾個小時就需要人類監(jiān)督。

因此,GPT-2030最有可能影響的任務是:

1. AI相對于人類的強項

2. 只需要能夠方便快速地收集外部經驗數據的任務(而不是昂貴的物理實驗)

3. 可以事先分解為可靠執(zhí)行的子任務,或具有明確且可自動化的反饋度量,以幫助引導模型的任務

加速!

同時滿足上述三個標準的一個任務,就是是數學研究。

在第一點上,GPT-2030可能具有超人的數學能力。

在第二和第三點上,數學可以純粹通過思考和寫作來完成,而且如果一個定理被證明了,我們會知道。

此外,現在全球并沒有多少數學家(在美國只有3000名),因此GPT-2030可能會在在幾天內,就模擬出超過所有數學家一年內產出的成果。

機器學習研究也基本滿足上述標準。

GPT-2030將具有超人的編程能力,包括實現和運行實驗。

它在展示和解釋實驗結果方面也會表現相當出色,因為GPT-4能夠以通俗易懂的方式解釋復雜主題,同時市場也對此有很大需求。

因此,機器學習研究可能會簡化為構思好要進行的實驗,然后和高質量(但可能不可靠)的實驗結果報告交互。

到2030年,碩博研究生可能會擁有和今天的教授相同的資源,仿佛手上帶了幾名優(yōu)秀學生。

社會科學的發(fā)展可能也會顯著加速。很多論文的大部分工作是追蹤、分類和標記有趣的數據來源,并提取模式。

這滿足了要求3,因為分類和標記可以分解為簡單的子任務;也滿足了要求2,只要數據可以在互聯網上獲得,或者可以通過在線調查收集到。

關鍵詞:

X 關閉

安陽曹操墓將于2022年5月正式對公眾開放
時間·2021-12-29    來源·中新網
為什么這次寒潮南方降雪這么明顯?
時間·2021-12-29    來源·新華社
山西絳縣6名失蹤者全部遇難 當地:已立案調查
時間·2021-12-29    來源·中新網

X 關閉