亚洲+综合+国产,无码人妻一区二区三区在线视频

OPPO大模型，主打非自研

2023-11-02 13:41

今年5月9日，發(fā)布僅3天的訊飛星火大模型就在一個(gè)評(píng)測榜單上拿了個(gè)國服第一，力壓清華智譜、復(fù)旦MOSS以及百度文心一言等國產(chǎn)大模型，僅次于GPT-4和GPT-3.5。

本來外界對訊飛稱王并無異議，但這份榜單將文心一言列在最后一名，熱心網(wǎng)友就不樂意了。

隨后發(fā)布榜單的評(píng)測機(jī)構(gòu)SuperCLUE被曝光，一個(gè)仿照GLUE的國內(nèi)民間組織，權(quán)威度和影響力與GLUE相去甚遠(yuǎn)，其微信賬號(hào)主體屬性為個(gè)人，被網(wǎng)友戲稱為AI版李逵和李鬼。

就連訊飛的稱王都被挖出來貓膩。

評(píng)測榜單發(fā)布當(dāng)天，SuperCLUE官網(wǎng)顯示信息，其測評(píng)顧問中排名第一的是崔一鳴，身份為學(xué)術(shù)顧問委員會(huì)主任，哈工大訊飛聯(lián)合實(shí)驗(yàn)室（HFL）資深級(jí)研究員，而第二天官網(wǎng)就刪除了此條顧問信息。

至于這個(gè)榜單本身，也被業(yè)內(nèi)人士質(zhì)疑其合理性，理由是沒有公布評(píng)估數(shù)據(jù)以及具體的評(píng)估方式。不過SuperCLUE在8月份進(jìn)行了一次評(píng)測體系、方法及變動(dòng)說明的解讀，算是變相回應(yīng)，只不過3700道的測試題還是較SuperGLUE的2萬道相去甚遠(yuǎn)。

但SuperCLUE卻搖身一變，成為各種大模型PR稿里的救世主，堪稱大模型界的安兔兔和魯大師，個(gè)中內(nèi)涵懂得都懂。

手機(jī)廠商也順理成章成為了SuperCLUE的榜單�？�。比如OPPO和vivo，前者登上了9月的基礎(chǔ)能力排行榜，后者則拿下了10月的國服第一。

榜單的套路

在搞機(jī)圈跑分作弊早已不算秘密，2013年三星Galaxy S4就曾被曝跑分作弊，事后三星不得不向每位Galaxy S4購買者賠償10美元。

到2018年，跑分作弊儼然已成一種行業(yè)亂象：各大手機(jī)廠商費(fèi)盡心思優(yōu)化跑分項(xiàng)目，有的甚至專門開設(shè)一個(gè)白名單，當(dāng)檢測到是跑分軟件時(shí)，手機(jī)各方面的資源就全速運(yùn)行，以此開啟芯片的極限性能模式。Anandtech就曾公開點(diǎn)名榮耀Play跑分作弊，跑分監(jiān)測機(jī)制開啟和關(guān)閉的情況下，得分相差一倍。

跑分作弊映射出的一個(gè)道理是，這種人為極限性能下的分?jǐn)?shù)，設(shè)備根本不可能長時(shí)間保持這樣的水平，因此顯得毫無意義。

而這種毫無意義的極限性能跑分，隱隱有傳到大模型的跡象。

比如OPPO這次拿出來的SuperCLUE成績，還不是總榜單，而是十大基礎(chǔ)能力排行榜的“知識(shí)與百科”能力。

在SuperCLUE的評(píng)測方案中，“知識(shí)與百科”屬于專業(yè)知識(shí)技能，包含歷史地理、科學(xué)技術(shù)、文化娛樂、社會(huì)人文等眾多任務(wù)。

相對來說，“知識(shí)與百科”傾向于是有標(biāo)準(zhǔn)答案的問答評(píng)測，不過即便如此后期有用戶在測試OPPO大模型時(shí)，還是出現(xiàn)了魯迅和周樹人不是同一人的錯(cuò)誤。

拋開這種低級(jí)失誤，對于這種有針對性的評(píng)測，小米AI實(shí)驗(yàn)室大模型團(tuán)隊(duì)負(fù)責(zé)人欒劍此前在接受媒體采訪時(shí)就給過定論，目前這些榜單絕大部分都是學(xué)科問題，而且是選擇題為主，所以用它們對評(píng)估大模型的能力是有局限性的。

“如果把這些學(xué)科的知識(shí)、這些學(xué)科搜集到的試題，都拿來對大模型做增強(qiáng)學(xué)習(xí)，它的效果一定可以達(dá)到很好。”界面新聞就曾曝光過兩種C-Eval“刷榜”方式：

一種是找數(shù)據(jù)標(biāo)注員把題目做一遍，第二種是用GPT-4把題做一遍，再把答案扣下來訓(xùn)練大模型，這樣都能在相應(yīng)學(xué)科測試中獲得滿分。

問題的關(guān)鍵還在于，做這樣的訓(xùn)練對大模型其它方面的能力可能會(huì)帶來負(fù)面影響。

目前有一些開源的大模型迭代了版本之后，打榜的分?jǐn)?shù)提高得很明顯，但如果測試它的生成能力，比如寫作水平，發(fā)現(xiàn)其實(shí)是有下降的。

還有一點(diǎn)存疑的是，大模型評(píng)測榜單的合理性。

比如今年5月SuperCLUE的榜單，文心一言在這個(gè)測評(píng)的評(píng)分是明顯偏低的，甚至連一些不知名的國產(chǎn)小型開源模型都比不過，測試結(jié)果與實(shí)際使用體驗(yàn)不符。

根源在于當(dāng)時(shí)SuperCLUE的測試手段是讓大模型做選擇題（據(jù)稱是100道），而這是用來針對BERT時(shí)代的判別式AI模型，不適用于現(xiàn)在的這些生成式大模型。

這倒也不是SuperCLUE一家的問題。華泰證券前資深算法工程師邱震宇此前曾深入探究了市面上大模型的各類評(píng)測集，綜合比較了各家榜單結(jié)果，得出的結(jié)論是現(xiàn)在并不存在一個(gè)公認(rèn)有效的評(píng)測方式。

大模型是一個(gè)新的范式，其實(shí)一個(gè)范式除了對底層邏輯的解釋，也需要有一整套的訓(xùn)練方法及評(píng)估方法。對大模型來說，這一整套合理的評(píng)估方法，大家還在探索中，沒有公認(rèn)的標(biāo)準(zhǔn)。

事實(shí)上，大模型很難去實(shí)現(xiàn)沒有偏頗的測試，所謂的AI模型排名沒有什么值得參考的實(shí)際價(jià)值，評(píng)價(jià)大模型的唯一標(biāo)準(zhǔn)就是能不能幫助用戶去解決實(shí)際的問題。

看待打榜，只是從一個(gè)側(cè)面驗(yàn)證一個(gè)基座大模型是不是能在某個(gè)領(lǐng)域里做到極致，但不代表說它就一定能給用戶帶來最好的應(yīng)用體驗(yàn)。

“借來的大模型”

在OPPO之前，已經(jīng)有三家國內(nèi)手機(jī)廠商公開了大模型進(jìn)度，分別是華為、小米和vivo，均以語音助手的形式。而且各家像是打過商量一樣，幾乎是在同一時(shí)間對外吹風(fēng)，再加上高通、谷歌、聯(lián)發(fā)科的頻頻官宣，上馬大模型儼然成為手機(jī)廠商的必選項(xiàng)。

在這種你追我趕的態(tài)勢下，就很容易發(fā)生“有條件要上，沒有條件也要硬上”的老套情節(jié)。

2019年OPPO推出小布助手，最初通過調(diào)用搜索引擎完成擴(kuò)展問答，但整個(gè)體驗(yàn)不暢，促使后來OPPO開始做知識(shí)圖譜和海量語料數(shù)據(jù)，相當(dāng)于建了一個(gè)問答庫。

這種機(jī)械的“檢索式回答”常見于當(dāng)時(shí)的語音助手，優(yōu)點(diǎn)是成本低上馬快，缺點(diǎn)則是周期長標(biāo)注量大，且要面對長尾問題語音助手無法回答的尷尬。舉個(gè)例子，長江長還是黃河長這類問題，如果數(shù)據(jù)庫中沒有答案，語音助手就無法回答。

為了解決問題，2021年OPPO找到了北京智源人工智能研究院，借悟道大模型推出了“生成式問答系統(tǒng)”，一定程度上彌補(bǔ)了自己的技術(shù)短板。

彼時(shí)的OPPO屬于兩條腿走路，一邊從外面引入大模型，一邊在背后埋頭自研。

2022年6月推出的預(yù)訓(xùn)練模型OBERT，就是OPPO從發(fā)布前兩年開始探索的，共有一億、三億和十億參數(shù)三個(gè)版本。同年11月，OPPO語音語義研究部又推出參數(shù)量為30億的中文預(yù)訓(xùn)練大模型CHAOS。

但這兩個(gè)模型在網(wǎng)上能查到的資料很少，除了官宣的新聞稿外幾乎沒有其它消息。倒是今年4月，在阿里云峰會(huì)上，阿里云官方發(fā)布的「企業(yè)專屬大模型」合作名單里，OPPO卻位列第一。

據(jù)阿里云CTO周靖人介紹，以上這一系列模型已經(jīng)和阿里的行業(yè)模型形成了層次化、模塊化結(jié)構(gòu)，行業(yè)模型可以在阿里預(yù)訓(xùn)練模型之上進(jìn)行定制，可以解決當(dāng)下多達(dá)200個(gè)業(yè)務(wù)場景。

換言之，這些AI模型本質(zhì)上都是基于阿里云通義大模型完成的能力構(gòu)建。這似乎意味著，OPPO的自研大模型或是火候不到，不得不暫時(shí)放棄自研，再轉(zhuǎn)向外部合作。

坊間也有傳言稱vivo的大模型用的是開源的Llama2，雖不知真假，但也從側(cè)面反映出，手機(jī)廠商做大模型的一個(gè)被動(dòng)：無論宣傳上多么高調(diào)，總令人懷疑沒這個(gè)技術(shù)實(shí)力。

至于是自研好還是外部合作好，就各有論調(diào)了。

自研的難點(diǎn)在于，從0開始基礎(chǔ)大模型的預(yù)訓(xùn)練，資金投入需要非常大，除此以外，數(shù)據(jù)、算力、know-how、維護(hù)等也是一道道門檻，但優(yōu)勢也十分巨大，企業(yè)能夠掌握自己定制模型結(jié)構(gòu)的能力。

在各種設(shè)備終端上，使用的芯片不同，就會(huì)對模型提出各種各樣的要求，這些要求可能細(xì)節(jié)到一些算子不支持，或者某種結(jié)構(gòu)運(yùn)行起來效率不高。手機(jī)廠商必須根據(jù)硬件提出的要求，對模型結(jié)構(gòu)做一些調(diào)整。

如果想修改模型結(jié)構(gòu)的話，就一定需要具備從頭開始訓(xùn)練的能力。因?yàn)殚_源模型的結(jié)構(gòu)是固定的，沒有辦法調(diào)整，就不能滿足需求。

而外部合作的優(yōu)勢正是自研的難點(diǎn)，百度、阿里等平臺(tái)型企業(yè)幾乎提供了一條龍服務(wù)，不僅省下了成本，還有性能/中文增強(qiáng)、數(shù)據(jù)集、應(yīng)用范式等系列服務(wù)，幾乎一鍵開發(fā)大模型。

尾聲

今年2月，高通在一部沒有聯(lián)網(wǎng)的Android手機(jī)上使用了Stable Diffusion 來生成AI圖像，整個(gè)生成時(shí)間不超過15秒，過程全部在手機(jī)上進(jìn)行。剛剛發(fā)布的驍龍8 Gen3，已經(jīng)可以支持運(yùn)行100億參數(shù)的生成式AI模型。

今年5月的谷歌I/O大會(huì)上，谷歌一口氣發(fā)布了四個(gè)新一代大語言模型 PaLM 2。其中最小的“壁虎”大模型，可以適配手機(jī)運(yùn)行。

到今天，手機(jī)大模型已經(jīng)是一個(gè)無可爭議的趨勢。但擺在手機(jī)廠商面前的問題似乎都被它們忽視了：大模型究竟能為用戶帶來什么？

至少在當(dāng)前，無論是華為、小米還是vivo、OPPO，其內(nèi)嵌大模型的語音助手還沒有“涌現(xiàn)”的跡象，提供的功能也沒有超出通用大模型的范疇。

而按照手機(jī)廠商的慣用套路，新技術(shù)是否驅(qū)動(dòng)了新需求尚未可知，但驅(qū)動(dòng)新價(jià)格幾乎是毫無疑問的。

參考資料

[1] 國內(nèi)大模型爭霸賽，這是你心目中的大模型排名嗎？機(jī)器學(xué)習(xí)

[2] 跑的高能賣錢？手機(jī)廠商為啥要跑分作弊，威鋒網(wǎng)

[3] 小米的大模型“野心”，始于端側(cè)，騰訊科技

[4] 誰在評(píng)價(jià)大模型？AI大模型評(píng)測榜單亂象調(diào)查，界面新聞

[5] 手機(jī)跑分突破110萬！跑分到底是娛樂還是有可信度？中關(guān)村在線

[6] 登頂CLUE與MUGE，OPPO語音語義研究部推出中文預(yù)訓(xùn)練大模型CHAOS, 新聞助手

[7] 登頂KgCLUE，OPPO小布推出預(yù)訓(xùn)練大模型OBERT，OPPO小布團(tuán)隊(duì)