OpenAI 放大招“對打”谷歌 Gemini:全力籌備多模態(tài)大模型,并發(fā)布新指令語言模型
發(fā)布時間:2023-09-21 15:26:31
面對挑戰(zhàn),OpenAI 連續(xù)放大招,除了發(fā)布新指令語言模型 GPT-3.5-turbo-instruct,還計劃推出多模態(tài)大模型 GPT-Vision 與 Gobi。據(jù)一位未公開身份的知情人士透露,OpenAI 在積極將多模態(tài)功能(類似于 Gemini 將要提供的功能)納入 GPT-4。
新語言模型 InstructGPT-3.5
近日,OpenAI 推出 GPT-3.5-turbo-instruct,這是一款新的指令語言模型,效率可以與聊天優(yōu)化的 GPT-3.5 Turbo 模型相媲美。
指令模型屬于大語言模型的一種,會在使用一大量數(shù)據(jù)進行預(yù)訓(xùn)練之后,再通過人類反饋(RLHF)做進一步完善。在此過程中,會由人類負(fù)責(zé)評估模型根據(jù)用戶提示詞生成的輸出,對結(jié)果做改進以達成目標(biāo)效果,再將更新后的素材用于進一步訓(xùn)練。
因此,指令模型能夠更好地理解并響應(yīng)人類的查詢預(yù)期,減少錯誤并緩解有害內(nèi)容的傳播。從 OpenAI 的測試結(jié)果來看,盡管體量僅為后者的百分之一,但人們明顯更喜歡擁有 13 億參數(shù)的 InstructGPT 模型,而非擁有 1750 億參數(shù)的 GPT 模型。
據(jù)了解,GPT-3.5-turbo-instruct 的成本與性能同其他具有 4K 上下文窗口的 GPT-3.5 模型相同,使用的訓(xùn)練數(shù)據(jù)截止于 2021 年 9 月。
GPT-3.5-turbo-instruct 將取代一系列現(xiàn)有 Instruct 模型,外加 text-ada-001、text-babbage-001 和 text-curie-001。這三款 text-davinci 模型將于 2024 年 1 月 4 日正式停用。
OpenAI 表示,GPT-3.5-turbo-instruct 的訓(xùn)練方式與之前的其他 Instruct 模型類似。該公司并未提供新 Instruct 模型的細節(jié)或基準(zhǔn),而是參考了 2022 年 1 月發(fā)布的 InstructGPT,即 GPT-3.5 模型的實現(xiàn)基礎(chǔ)。
OpenAI 稱,GPT-4 擁有超越 GPT-3.5 的復(fù)雜指令遵循能力,生成的結(jié)果也比 GPT-3.5 質(zhì)量更高;但 GPT-3.5 也有自己的獨特優(yōu)勢,例如速度更快且運行成本更低。GPT-3.5-turbo-instruct 并非聊天模型,這一點與原始 GPT-3.5 有所區(qū)別。具體來講,與之前的聊天應(yīng)用模型不同,GPT-3.5-turbo-instruct 主要針對直接問答或文本補全進行優(yōu)化。
速度方面,OpenAI 稱 GPT-3.5-turbo-instruct 速度與 GPT-3.5-turbo 基本相當(dāng)。
下圖為 OpenAI 設(shè)計的 Instruct 指令模型與 Chat 聊天模型之間的區(qū)別。這種固有差異自然會對提示詞的具體編寫產(chǎn)生影響。
OpenAI 負(fù)責(zé)開發(fā)者關(guān)系的 Logan Kilpatrick 稱,這套新的指令模型屬于向 GPT-3.5-turbo 遷移當(dāng)中的過渡性產(chǎn)物。他表示其并不屬于“長期解決方案”。已經(jīng)在使用微調(diào)模型的用戶,需要根據(jù)新的模型版本做重新微調(diào)。目前微調(diào)功能只適用于 GPT-3.5,GPT-4 的微調(diào)選項計劃于今年晚些時候發(fā)布。
多模態(tài)大模型 GPT-Vision 與 Gobi
除了 GPT-3.5-turbo-instruct,OpenAI 近日還計劃發(fā)布多模態(tài)大模型 GPT-Vision,以及一個代號為“Gobi”的更強大的多模態(tài)大模型。
據(jù)悉,GPT-Vision 在 3 月份的 GPT-4 發(fā)布期間首次預(yù)覽,是 OpenAI 融合文本和視覺領(lǐng)域的雄心勃勃的嘗試。雖然該功能最初實際用例僅限于 Be My Eyes 公司,這家公司通過其移動應(yīng)用幫助視力障礙或失明用戶進行日?;顒?。
GPT-Vision 有潛力重新定義創(chuàng)意內(nèi)容生成的界限。想象一下使用簡單的文本提示生成獨特的藝術(shù)品、徽標(biāo)或模因?;蛘呖紤]一下對有視覺障礙的用戶的好處,他們可以通過自然語言查詢與視覺內(nèi)容交互并理解視覺內(nèi)容。該技術(shù)還有望徹底改變視覺學(xué)習(xí)和教育,使用戶能夠通過視覺示例學(xué)習(xí)新概念。
如今,OpenAI 正準(zhǔn)備將這項名為 GPT-Vision 的功能開放給更廣泛的市場受眾。
此外,據(jù) The Information 報道,OpenAI 即將發(fā)布代號為“Gobi”的下一代多模態(tài)大語言模型,希望借此擊敗谷歌并繼續(xù)保持市場領(lǐng)先地位。目前,Gobi 的訓(xùn)練還沒有開始,有評論認(rèn)為其有機會成為 GPT-5。
報道稱,OpenAI 之所以耗費大量時間來推出 Gobi,主要是擔(dān)心新的視覺功能會被壞人利用,例如通過自動解決驗證碼來冒充人類,或者通過人臉識別追蹤人們。但現(xiàn)在,OpenAI 的工程師們似乎想到辦法來緩解這個安全問題了。
OpenAI CEO:GPT-5 尚未出現(xiàn),計劃將多模態(tài)功能納入 GPT-4
據(jù)了解,多模態(tài)大語言模型的本質(zhì)是一種先進 AI 系統(tǒng),能夠理解和處理多種數(shù)據(jù)形式,包括文本和圖像。與主要處理文本內(nèi)容的傳統(tǒng)語言模型不同,多模態(tài)大語言模型能夠同時對文本加視覺類內(nèi)容進行分析和生成。
也就是說,這類模型可以解釋圖像、理解上下文并生成包含文本和視覺輸入的響應(yīng)結(jié)果。多模態(tài)大模型還擁有極高的通用性,適用于從自然語言理解到圖像解釋的諸多應(yīng)用,借此提供更廣泛的信息處理能力。
報道指出,“這些模型能夠處理圖像和文本,例如通過查看用戶繪制的網(wǎng)站外觀草圖來生成網(wǎng)站構(gòu)建代碼,或者根據(jù)文本分析結(jié)果輸出可視化圖表。如此一來,普通用戶也能快速理解內(nèi)容含義,不必再向擁有技術(shù)背景的工程師們求助。”
OpenAI 首席執(zhí)行官 Sam Altman 在最近的采訪中表示,盡管 GPT-5 尚未出現(xiàn),但他們正計劃對 GPT-4 進行各種增強。而開放多模態(tài)支持功能,也許就是這項計劃的一部分。
在上周接受《連線》采訪時,谷歌 CEO 桑達爾·皮查伊表達了他對于谷歌當(dāng)前 AI 江湖地位的信心,強調(diào)其仍掌握著技術(shù)領(lǐng)先優(yōu)勢、并在創(chuàng)新與責(zé)任方面求取平衡的審慎戰(zhàn)略。他也對 OpenAI ChatGPT 的深遠意義表示認(rèn)可,稱贊其擁有良好的產(chǎn)品-市場契合度、讓用戶對 AI 技術(shù)做好了準(zhǔn)備。但他同時強調(diào),谷歌在產(chǎn)品信任和負(fù)責(zé)態(tài)度方面會采取更加謹(jǐn)慎的立場。