谷歌認真起來,就沒 OpenAI 什么事了!創(chuàng)始人組隊打造“殺手級”多模態(tài) AI 模型
發(fā)布時間:2023-08-30 13:47:23
截至目前,OpenAI 大語言模型在 AI 競賽中一直處于領(lǐng)先地位。而強勁優(yōu)勢的背后,離不開微軟龐大數(shù)據(jù)中心基礎(chǔ)設(shè)施的有力支持。但 ChatGPT 的主導(dǎo)地位恐怕無法長久持續(xù)下去,因為新的、更強大的 AI 模型正不斷涌現(xiàn),而其中最具戰(zhàn)斗力的挑戰(zhàn)者就來自谷歌。
今年 4 月,Alphabet 首席執(zhí)行官桑達爾·皮查伊 (Sundar Pichai) 邁出了不尋常的一步:合并兩個具有不同文化和代碼的大型人工智能團隊(谷歌 Brain 和 DeepMind 團隊),以趕上并超越 OpenAI 和其他競爭對手。
現(xiàn)在,檢驗這個團隊工作成果的時刻即將到來。有消息稱,這支數(shù)百人組成的團隊將在今年秋天發(fā)布一組大型機器學(xué)習(xí)模型 Gemini,這是該公司有史以來構(gòu)建的風(fēng)險最高的產(chǎn)品之一。據(jù)參與 Gemini 開發(fā)的人士透露,這些模型統(tǒng)稱為 Gemini,預(yù)計將使谷歌能夠制造出競爭對手無法制造的產(chǎn)品。
谷歌 Gemini 于今年 5 月在 I/O 開發(fā)者大會上首度亮相。
當(dāng)時,谷歌稱 Gemini 為其下一代基礎(chǔ)模型,它仍在訓(xùn)練中。Gemini 是從一開始就以多模式、高效的工具和 API 集成為目標而創(chuàng)建的,旨在支持未來的創(chuàng)新,例如內(nèi)存和規(guī)劃。經(jīng)過微調(diào)和嚴格的安全測試后,Gemini 將提供各種尺寸和功能,就像 PaLM 2 一樣。
全世界都在關(guān)心的 Gemini 到底是個啥?
早在 2016 年,DeepMind 就因其人工智能程序 AlphaGo 在復(fù)雜的圍棋游戲中擊敗了一位冠軍選手而成為頭條新聞。快進到今天,DeepMind 首席執(zhí)行官 Demis Hassabis 透露,他的團隊正在利用 AlphaGo 的變革性技術(shù)來創(chuàng)建 Gemini AI。Demis Hassabis 透露,Gemini AI 的開發(fā)成本估計為數(shù)億美元,使用了數(shù)萬顆谷歌的 TPU AI 芯片進行訓(xùn)練。
據(jù)悉,Gemini AI 是一個類似于 ChatGPT 的 GPT-4 的大規(guī)模語言模型。然而,Hassabis 和他的團隊更進一步,為 Gemini AI 注入了源自 AlphaGo 的解決問題能力和戰(zhàn)略規(guī)劃能力。
從根本上講,Gemini AI 包含下一代 AI 架構(gòu),有望取代 Google 當(dāng)前的 AI 模型 PaLM 2。該模型目前支持 Google 的一系列 AI 服務(wù),例如 Workspace 應(yīng)用程序中廣泛使用的 Duet AI 和流行的 Bard 聊天機器人。
谷歌還放出消息,稱 Gemini 將為旗下 AI 聊天機器人 Bard,以及 Google Docs、Slides 等企業(yè)級應(yīng)用提供支持。
The Information 報道稱,谷歌并不是簡單地與 ChatGPT 等產(chǎn)品競爭,而是打算超越一眾大模型產(chǎn)品讓友商們無法望其項背。消息人士指出,該公司專注于將大型語言模型 (LLM) 的文本功能與人工智能圖像生成相結(jié)合,以創(chuàng)建多功能產(chǎn)品。這意味著 Gemini 不僅能夠像 ChatGPT 那樣生成文本,還能夠創(chuàng)建上下文圖像,但據(jù)報道,谷歌也在考慮添加其他功能。例如,用戶最終可能能夠使用 Gemini 通過語音分析流程圖或控制軟件。
Gemini 之所以能夠成為強大的競爭對手,是因為谷歌同樣掌握著雄厚的資源儲備,特別是用于訓(xùn)練 AI 模型的寶貴數(shù)據(jù)。谷歌能夠訪問 YouTube 視頻、谷歌圖書、龐大的搜索索引以及 Google Scholar 上的學(xué)術(shù)資料。其中大部分數(shù)據(jù)為谷歌所獨有,這也使其在構(gòu)建頂尖 AI 模型方面占據(jù)著超越其他廠商的優(yōu)勢。
那么,Gemini 在訓(xùn)練中,具體都用到了哪些數(shù)據(jù)集?
Gemini 用到了哪些數(shù)據(jù)集?
據(jù)悉,Gemini 項目汲取了谷歌多個項目的數(shù)據(jù)集來訓(xùn)練大模型,包括了 Google Piper monorepo、DeepMind MassiveText 以及 YouTube 中的數(shù)據(jù)。
來自 Google Piper monorepo 的 Gemini 數(shù)據(jù)集(估計)
Gemini 數(shù)據(jù)集可能由大量代碼組成,以支持最終訓(xùn)練模型中的推理。Google 的內(nèi)部 monorepo Piper 大小為 86TB 。使用 The Pile 的每字節(jié) 0.4412 個令牌的計算,該數(shù)據(jù)集將約為 37.9T 個令牌,或者大約是 GPT-4 中下一個最大數(shù)據(jù)集大小的兩倍(估計)。
來自 DeepMind MassiveText 的 Gemini 數(shù)據(jù)集(估計)
Gemini 數(shù)據(jù)集可能由 DeepMind 的一些 MassiveText(多語言) 5T 令牌數(shù)據(jù)集組成
請注意,下表是關(guān)于 Gemini 數(shù)據(jù)集的猜測(未經(jīng) Google DeepMind 確認),并且基于來自最先進的 DeepMind MassiveText(多語言)+ 1,000B 討論令牌的可用信息。MassiveText 包括網(wǎng)頁、書籍、新聞和代碼等文本,包含約 23.5 億個文檔, 10.5 TB 的文本量。
MassiveText 多語言數(shù)據(jù)集估計。
*四舍五入大概的數(shù)據(jù)以粗體顯示(來自 DeepMind 的 MassiveText 多語言數(shù)據(jù)集),確定的數(shù)據(jù)以斜體顯示。
來自 YouTube 的 Gemini 數(shù)據(jù)集(估計)
據(jù)一位知情人士透露,谷歌的研究人員一直在使用 YouTube 來開發(fā)其下一個大型語言模型 Gemini。
YouTube 2023 總體統(tǒng)計數(shù)據(jù)(來自Wyzowl和Statista):
視頻總數(shù):8 億。
平均長度:11.7 分鐘。
總時間:93.6 億分鐘。
四舍五入以跟上每小時上傳 30,000 小時的速度:10B 分鐘。
YouTube 2023 文本統(tǒng)計數(shù)據(jù):
人類說話速度:每分鐘 150 個單詞 (wpm)。
150wpm x 10B 分鐘 = 總計 1.5 萬億字。
假設(shè):(1) 說話僅出現(xiàn)在視頻的子集中,(2) 質(zhì)量分類器保留分數(shù)位于前 80% 的視頻,那么我們保留其中的 80%。
1.5T 字 x 0.8 = 1.2T 字。
1.2T 單詞 x 1.3 = 1.56T 文本標記。
1.5T 文本令牌不足以大幅降低 Gemini 或 GPT-5 規(guī)模模型的要求:
1T 參數(shù)(20T 文本令牌)。
2T 參數(shù)(40T 文本標記)。
5T 參數(shù)(100T 文本令牌)。
鑒于 2023-2024 年大型語言模型對多模態(tài)的關(guān)注,可以假設(shè)視覺內(nèi)容(不僅僅是文本)正在用于訓(xùn)練這些模型。
在將 YouTube 上的音頻、視頻數(shù)據(jù)注入 Gemini 數(shù)據(jù)集中后,Gemini 模型就具有了多模態(tài)能力,比如,根據(jù) YouTube 視頻訓(xùn)練的模型,可以幫助需要的人根據(jù)視頻解決一些實際動手問題。
使用 YouTube 內(nèi)容,還可以幫助谷歌開發(fā)更先進的文本轉(zhuǎn)視頻軟件,根據(jù)用戶想看的內(nèi)容描述,自動生成詳細的視頻。
Google DeepMind 在 Piper(其 86TB monorepo)中的迭代代碼上訓(xùn)練大模型(DIDACT)。使用 The Pile 的每字節(jié) 0.4412 個令牌的計算,該數(shù)據(jù)集將約為 37.9T 個令牌,大約是 GPT-4 中下一個最大數(shù)據(jù)集大小的兩倍(預(yù)估)。這意味著訓(xùn)練 Gemini 不會出現(xiàn)傳聞中的數(shù)據(jù)匱乏的情況。
2023 年最大數(shù)據(jù)集列表(截至 2023 年 6 月)
*四舍五入大概的數(shù)據(jù)以粗體顯示,確定的數(shù)據(jù)以斜體顯示。
據(jù)稱與 GPT-4 不同,Gemini 將是首個能夠同時處理視頻、文本和圖像的多模態(tài)模型。有報告表明,Gemini 接受的訓(xùn)練令牌數(shù)量是 GPT-4 的兩倍,是 PaLM 2 的 10 倍。
Gemini+GPT-4 等于 AGI?
比如,目前 GPT-4 等大語言模型的缺陷主要體現(xiàn)在兩方面:第一,是結(jié)果高度依賴訓(xùn)練語料,如果語料存在偏見或錯誤,那么大語言模型生成的結(jié)果也會是錯誤的;第二,是大語言模型可能會出現(xiàn)幻覺,給出完全不符合常識的錯誤信息,這主要是因為大語言模型只具備當(dāng)前訓(xùn)練語料的知識,缺乏對真實世界全面而準確的理解。
Gemini 作為先進的數(shù)學(xué)定理證明系統(tǒng),與 GPT4 等大型語言模型相結(jié)合,有可能解決人工智能模型中搜索和規(guī)劃的弱點,并生成新的定理。有專家預(yù)測,該模型可以在五年內(nèi)達到 MMLU 基準的 100 分。
谷歌在構(gòu)建和訓(xùn)練大語言模型方面還有著深厚的人才池和多年實踐經(jīng)驗。除了預(yù)計于明年秋季發(fā)布的新模型之外,谷歌還有意發(fā)布由 Gemin 驅(qū)動的新聊天機器人,或者借此升級現(xiàn)有 Bard 聊天機器人。照慣例來看,新模型應(yīng)該會通過 Google Cloud 對外發(fā)布,這無疑會對谷歌的云業(yè)務(wù)產(chǎn)生深遠的積極影響。
Gemini 在上月谷歌開發(fā)者大會上首度亮相時曾遭嘲笑,期間谷歌展示的幾個 AI 項目也未受認可。
谷歌稱,Gemini 項目的下一代 AI 模型最早將于今年秋季推出。
聯(lián)合創(chuàng)始人謝爾蓋·布林躬身入局,組建研發(fā)團隊
據(jù)報道,2022 年底,布林開始更頻繁地進入谷歌辦公室。在谷歌于 2022 年底因 OpenAI 失去研究人員后,人們認為布林正在專注于 Gemini 的招聘流程?,F(xiàn)在,消息人士稱,他在評估和訓(xùn)練 Gemini 模型方面發(fā)揮了重要作用。
在此之前,兩大部門也分別對 ChatGPT 做出了自己的回應(yīng)。DeepMind 這邊有 Goodall 項目,使用了一種名為 Chipmunk 的未公開模型,另一部門則拿出基于 Google Brain 模型的 Bard。盡管雙方之間存在一定競爭,DeepMind 還是決定放棄 Goodall,轉(zhuǎn)而在 Gemini 上攜手合作。
ChatGPT 的統(tǒng)治將就此終結(jié)?
具體來講,Gemini 不僅擅長理解和生成會話文本,而且精通處理多種其他輸入,例如文本、圖像和視頻。另有報道表明,Gemini 能夠接收的 token 數(shù)量可達 GPT-4 的兩倍,這應(yīng)該能夠支撐起更強的智能度優(yōu)勢。
隨著生成式人工智能競爭格局的加劇,谷歌準備通過推出 Gemini AI 來展示其真正的能力。谷歌從匆忙引入 Bard 中汲取了寶貴的經(jīng)驗教訓(xùn),決心確保無懈可擊地進入市場。預(yù)計到 2030 年,生成式人工智能市場將達到 1093.7 億美元,投資者和客戶熱情高漲,加劇了主導(dǎo)地位的爭奪。谷歌著眼于徹底改變行業(yè),已準備好釋放 Gemini AI 的全部潛力,塑造文本分析人工智能解決方案的未來。
以上為本次所有分享內(nèi)容