谷歌百人“復仇者聯盟”出擊!將發對標GPT-4的大模型
2023-08-17 245
編譯 | 香草
編輯 | 李水青
谷(gu)歌(ge)“復仇者(zhe)聯盟”要面向(xiang)OpenAI全軍出擊了!
智東西8月16日消(xiao)息,據(ju)The Information獨家報道,谷歌于4月新合并的(de)AI SWAT團隊(dui)正在為秋季大型(xing)發(fa)布會(hui)做準備,將發(fa)布代號為Gemini的(de)大模(mo)型(xing),反擊OpenAI的(de)GPT-4。
多位開發人員(yuan)爆料了(le)Gemini的(de)跨(kua)模態文本生成圖像能力,及圖表(biao)分析、文字或(huo)語音指令等多種(zhong)功能,并(bing)稱其有(you)望為聊天機器人Bard等其他業(ye)務提供動(dong)力,從而與(yu)GPT-4的(de)系列應用(yong)形成對壘。
背后,為了該項目(mu)(mu)冰釋前嫌(xian)的(de)DeepMind和(he)谷歌大腦,也(ye)被傳出在代碼合并、軟件使用及(ji)遠程辦公政策等方面面臨各種“聯姻”帶來的(de)次(ci)生問題,一些項目(mu)(mu)磨(mo)合的(de)細(xi)節也(ye)被曝出。
谷歌(ge)的(de)“復(fu)仇者聯盟”版圖已經(jing)逐(zhu)漸完(wan)整。The Information首次明確(que)了該團隊中(zhong)的(de)小組分工及各小組主管,如下(xia)表(biao)格所示,來(lai)自兩(liang)個團隊的(de)26位主管的(de)信息被(bei)搜(sou)集梳理了出來(lai)。
▲Gemini各小組分工(gong)及領導人(圖源:The Information)
一、Gemini具備多模態能力,基于YouTube內容訓練
今年4月,Alphabet首席(xi)執行官桑達爾·皮查伊(Sundar Pichai)采取了一項不同尋常的舉措:將兩個(ge)擁有不同文(wen)化和代碼(ma)的大型AI團(tuan)隊(dui),谷歌大腦和DeepMind合并(bing),以迎頭(tou)趕(gan)上OpenAI和其他競爭對手。(AGI復(fu)仇(chou)者(zhe)聯(lian)盟!谷(gu)歌大(da)腦(nao)與DeepMind官宣合(he)體)
現(xian)在,對(dui)這一努力(li)的(de)考驗即將(jiang)到來。該公司有(you)史以來投入最(zui)大的(de)產(chan)品之(zhi)一——大型(xing)機(ji)器(qi)學習模型(xing)Gemini即將(jiang)在今年秋天發布。開發人士稱,Gemini不(bu)僅會(hui)配備(bei)類(lei)(lei)似(si)GPT-4的(de)文本生成能(neng)力(li),還結合(he)了文本生成圖(tu)像(xiang)的(de)能(neng)力(li),類(lei)(lei)似(si)于AI圖(tu)像(xiang)生成器(qi)Midjourney和Stable Diffusion,有(you)望使(shi)谷歌在打造產(chan)品方面(mian)的(de)能(neng)力(li)勝(sheng)過其(qi)競爭(zheng)對(dui)手。
谷歌員工還談到了Gemini的一些(xie)其他功能,如分析圖表(biao)、創建帶(dai)有文字描述的圖形(xing),及使用文字或語(yu)音指令控制軟件。
谷歌希望通過(guo)Gemini為多個(ge)服(fu)務提供(gong)動力,包括(kuo)與ChatGPT對標的Bard聊天機(ji)器人,以及(ji)Google Docs和(he)Slides等企業應用(yong)。盈利方面,谷歌計劃通過(guo)谷歌云(Google Cloud)服(fu)務器租(zu)用(yong)部門,向應用(yong)程序開發者收取Gemini的使用(yong)費(fei)。
“這(zhe)將是有(you)模(mo)型能與GPT-4旗鼓相當的(de)第一個跡(ji)象(xiang)。”彭博(bo)社風投(tou)分(fen)支Bloomberg Beta的(de)AI初創企業投(tou)資(zi)人(ren)詹姆斯·查姆(James Cham)談(tan)道,“我認為(wei),在過去的(de)九個月中(zhong),也(ye)許每(mei)個人(ren)都在問:什么時候才會(hui)有(you)人(ren)看起來能趕上OpenAI?”
據(ju)The Information于(yu)6月14日的報道,谷歌(ge)在大量的YouTube視頻轉(zhuan)錄語料上對(dui)Gemini進(jin)行(xing)訓練,同時也可以將視頻和音頻集成(cheng)到(dao)Gemini中,使其具備目前被認為(wei)是AI下(xia)一個前沿領域的多模態能力。
例(li)如,通(tong)過YouTube視頻訓(xun)練(lian)出的模型可(ke)以輔(fu)助工程師(shi)根據(ju)視頻診(zhen)斷汽車維修(xiu)問題,也可(ke)以根據(ju)用戶想創建的網(wang)站或應(ying)用程序(xu)的草圖來(lai)生成軟件代碼。OpenAI已經預(yu)告了這種功能(neng),但尚未(wei)推出。
▲通過YouTube視頻來訓練機器(qi)學習模型(圖(tu)源:Shutterstock)
使(shi)用YouTube內(nei)容進(jin)行訓(xun)練還能幫(bang)助谷(gu)歌開發更為先進(jin)的(de)文本(ben)視頻(pin)軟(ruan)件(jian),可以根據用戶想看的(de)內(nei)容描述自動生成詳(xiang)細的(de)視頻(pin)。好萊塢和(he)內(nei)容創作者正在密(mi)切關(guan)注這類軟(ruan)件(jian)的(de)發展。
二、DeepMind放棄原有項目,與谷歌大腦合研Gemini
谷歌大腦于2011年成立,旨(zhi)在利用(yong)AI改進谷歌搜索結(jie)果、廣(guang)告定位和Gmail輔助完成郵件等(deng)功(gong)能(neng)。DeepMind則于2014年被谷歌收購(gou),此后一直獨立運(yun)營。
2022年11月,OpenAI發(fa)(fa)布了(le)ChatGPT,幾周內用(yong)戶數(shu)量激增至數(shu)千萬,幾個月內營收達(da)到數(shu)億美元(yuan)。與此同時,谷歌正面臨著一(yi)系列離職(zhi)潮。其(qi)多(duo)名研究人(ren)員流失(shi)到OpenAI,并在ChatGPT的開(kai)發(fa)(fa)過程(cheng)中發(fa)(fa)揮了(le)重要作用(yong)。
在合(he)并之(zhi)(zhi)前,谷(gu)歌(ge)大(da)(da)腦(nao)和DeepMind也(ye)曾分別開(kai)發了(le)(le)針對(dui)ChatGPT的(de)項(xiang)目。谷(gu)歌(ge)大(da)(da)腦(nao)在今年3月(yue)利用(yong)(yong)現有模型(xing)推(tui)出了(le)(le)Bard,但被(bei)一(yi)些用(yong)(yong)戶(hu)批(pi)評只(zhi)是對(dui)ChatGPT的(de)有限模仿;DeepMind開(kai)展了(le)(le)一(yi)個代號為Goodall的(de)項(xiang)目,利用(yong)(yong)一(yi)種名為Chipmunk的(de)未公開(kai)模型(xing)的(de)變(bian)體(ti)來(lai)開(kai)發ChatGPT的(de)對(dui)手。最(zui)終(zhong),DeepMind停止了(le)(le)這項(xiang)工作,轉而與谷(gu)歌(ge)大(da)(da)腦(nao)合(he)作開(kai)發Gemini,盡管(guan)這兩(liang)個AI團隊之(zhi)(zhi)間存在著長期的(de)競爭關系(xi)。
合并后的(de)(de)谷(gu)歌DeepMind由DeepMind聯合創(chuang)始(shi)人(ren)戴(dai)密斯(si)·哈薩(sa)比斯(si)(Demis Hassabis)擔任CEO。知情人(ren)士稱(cheng),DeepMind的(de)(de)兩位高管奧里奧爾·維尼亞(ya)爾斯(si)(Oriol Vinyals)和科拉(la)伊·卡夫丘格(ge)魯(Koray Kavukcuoglu)將與曾領導過谷(gu)歌大(da)腦的(de)(de)資深高管杰(jie)夫·迪恩(Jeff Dean)一起負責Gemini。
▲谷歌DeepMind首席執行官戴密斯(si)·哈(ha)薩比(bi)斯(si)在紐約(圖(tu)源:蓋蒂圖(tu)片(pian)社)
三、“聯姻”弊端:代碼合并、軟件使用、遠程辦公政策等爭議多
兩個(ge)部門合并后(hou),如何平衡從合并代碼(ma)到(dao)確(que)定遠(yuan)程工(gong)作政策等各個(ge)方(fang)面(mian)成為重要的問題。與DeepMind相比,谷歌大腦在遠(yuan)程工(gong)作方(fang)面(mian)要寬松得多。
在開發過程中,工程師(shi)們(men)是使用谷歌的(de)(de)軟(ruan)件(jian),還是使用DeepMind的(de)(de)軟(ruan)件(jian)也引發爭(zheng)議(yi),因為(wei)這(zhe)兩個部門擁有完(wan)全獨立的(de)(de)代(dai)碼(ma)庫。
該項目最終的決(jue)定是,在(zai)模型開(kai)發的早期預(yu)訓練(lian)階段,使用(yong)(yong)谷(gu)歌大腦用(yong)(yong)于(yu)訓練(lian)機器學習模型的軟(ruan)件Pax;在(zai)后期階段,使用(yong)(yong)DeepMind開(kai)發模型的軟(ruan)件Core Model Strike。參與該項目的人士說,這一決(jue)定安撫了每個小組的研究人員,但也惹惱了一部(bu)分人,因為他(ta)們不想使用(yong)(yong)不熟悉的軟(ruan)件。
除了機(ji)構(gou)合并,該團隊在(zai)發展過程(cheng)上(shang)也(ye)一直面臨(lin)著(zhu)諸多挑(tiao)戰,包括如何(he)確(que)定(ding)可(ke)以在(zai)哪些數據(ju)上(shang)對模型進(jin)行(xing)訓練(lian)等。
谷歌的(de)律師一直在密切評估訓(xun)練(lian)。據(ju)稱,他們讓研(yan)究人員刪除(chu)了來自教科書(shu)的(de)訓(xun)練(lian)數據(ju),因為擔心會(hui)涉及(ji)侵權。
開發人員稱,谷(gu)歌聯合創始人謝爾蓋·布林(lin)(Sergey Brin)一直(zhi)在(zai)對(dui)模型(xing)進行(xing)評(ping)估,并協(xie)助模型(xing)的(de)培訓。在(zai)團(tuan)隊發現Gemini被訓練成具(ju)有潛在(zai)攻擊性的(de)模型(xing)后,布林(lin)也參與了重(zhong)新訓練模型(xing)的(de)技術決策。
谷歌發言人對此(ci)不予(yu)置評。
四、Gemini團隊數百人,由二十多位主管共同管理
谷(gu)歌大腦(nao)和DeepMind公(gong)司的(de)前主(zhu)管(guan)共(gong)同管(guan)理監督Gemini的(de)大部分小組,已(yi)曝光的(de)圖表中共(gong)26位主(zhu)管(guan)。The Information首次明確(que)了他們在此項目中的(de)角(jiao)色。
▲Gemini各小組分工及(ji)領導(dao)人(ren)(圖源:The Information)
表中三位團(tuan)隊總(zong)體主管有兩位來自(zi)(zi)DeepMind。科拉伊(yi)·卡夫(fu)丘格(ge)魯(Koray Kavukcuoglu)自(zi)(zi)2012年起便在(zai)DeepMind就職(zhi),目前擔任(ren)谷(gu)歌(ge)(ge)DeepMind研究(jiu)與技術副(fu)總(zong)裁(cai),奧(ao)里奧(ao)爾·維(wei)尼亞爾斯(Oriol Vinyals)則擔任(ren)研究(jiu)與深度學(xue)習副(fu)總(zong)裁(cai)。另(ling)一位總(zong)體主管杰夫(fu)·迪(di)恩(Jeff Dean)來自(zi)(zi)谷(gu)歌(ge)(ge)大(da)腦,自(zi)(zi)1999年起便在(zai)谷(gu)歌(ge)(ge)就職(zhi),目前擔任(ren)谷(gu)歌(ge)(ge)DeepMind和谷(gu)歌(ge)(ge)研究(jiu)院首席(xi)科學(xue)家。
Gemini將團(tuan)隊劃(hua)分為約十個小組,分別負責預訓練(lian)、數據、基礎設施(shi)、模型微調(diao)、模型評(ping)估、代碼(ma)庫、多(duo)模態、強(qiang)化(hua)學(xue)習、工(gong)具使用以及人工(gong)標注數據。
詹姆(mu)斯·莫洛(luo)伊(James Molloy)和湯姆(mu)·亨尼根(Tom Hennigan)都(dou)曾在DeepMind工作過(guo),與(yu)谷(gu)歌高(gao)級研究員保羅·巴勒姆(mu)(Paul Barham)等(deng)一起負責(ze)基礎設(she)施建設(she)。蒂莫西·利利克拉普(Timothy Lillicrap)曾參(can)與(yu)DeepMind國際象棋(qi)和圍棋(qi)相關系統的工作,他和谷(gu)歌大腦研究員艾米麗·皮特(te)勒(Emily Pitler)負責(ze)管(guan)理一個小(xiao)(xiao)組,該小(xiao)(xiao)組的工作重點是賦予大型語言(yan)模型(LLM)處理數學或網絡搜索(suo)等(deng)專業任(ren)務(wu)的能力。
結語:谷歌計劃通過Gemini來趕超OpenAI
谷歌或將(jiang)于秋(qiu)季發布(bu)會推出Gemini,這是(shi)其(qi)用來挑戰OpenAI目(mu)前在(zai)AI領(ling)域地位的重要(yao)舉措。The Information披露了該(gai)項目(mu)最新的進展,包括其(qi)多模態能力、訓(xun)練數據等,且首次明確了該(gai)團隊的小(xiao)組分工及(ji)主(zhu)管。
Gemini項目的(de)合并過程并不容易,涉及到兩個獨立團隊的(de)磨(mo)合。谷歌(ge)(ge)既要推(tui)出新技(ji)術,又不能削(xue)弱其(qi)核心(xin)搜索業務,且必須(xu)控制訓練Gemini可能產生的(de)巨額服務器成本(ben)。Gemini的(de)表現將會(hui)如何,讓我們期待(dai)谷歌(ge)(ge)的(de)秋季發布會(hui)。
來(lai)源(yuan):The Information