小米欒劍:公司手機端大模型是完全自研
10月12日消息,小米技術(shù)委員會AI實驗室大模型團隊負(fù)責(zé)人欒劍在近日接受騰訊科技《AI未來指北》深度采訪,向外界分享了小米在研發(fā)手機大模型過程中的關(guān)鍵性思考。
在采訪中,欒劍表示,小米的手機端大模型是完全自研的?!拔覀冇X得大模型技術(shù)是AI未來發(fā)展的一個重要方向,所以我們一定需要自己從頭到尾每個環(huán)節(jié)都做一遍,積累這方面的經(jīng)驗,而且去了解在操作過程中的所有細節(jié)。”
圖注:小米技術(shù)委員會AI實驗室大模型團隊負(fù)責(zé)人欒劍
(圖源騰訊網(wǎng)視頻截圖,下同)
關(guān)于不考慮采用可開源商用模型方案問題,欒劍回應(yīng),首先小米需要有自己定制模型結(jié)構(gòu)的能力。在各種設(shè)備終端上,使用的芯片不同,就會對模型提出各種各樣的要求,這些要求可能細節(jié)到一些算子不支持,或者某種結(jié)構(gòu)運行起來效率不高。小米必須根據(jù)硬件提出的要求,對模型結(jié)構(gòu)做一些調(diào)整。他指出,如果想修改模型結(jié)構(gòu)的話,就一定需要具備從頭開始訓(xùn)練的能力。因為開源模型的結(jié)構(gòu)是固定的,沒有辦法調(diào)整,就不能滿足小米的需求。
除此之外,欒劍還回應(yīng)了小米不做通用大模型,要堅持研發(fā)輕量化的大模型的問題。他表示,小米開始嘗試大模型技術(shù)其實非常早,曾經(jīng)在對話大模型上做過嘗試,所以有經(jīng)驗和積累,對這項技術(shù)本身也有自己的理解。他認(rèn)為,小米應(yīng)該還是去發(fā)揮自己的特色,要去補足這個行業(yè)里面大家還不太重視的,或者說還比較缺的一些方面?!靶∶椎奶厣鞘裁矗课覀冇X得小米的特色是有很多的端側(cè)設(shè)備,怎么樣把這些端側(cè)的設(shè)備利用好,把大模型能夠放到端側(cè)設(shè)備里面去。首先這就是一件很酷的事情。其次我們也考慮到很多用戶可能對個人數(shù)據(jù)上傳到云端是有顧慮的,如果能夠在端側(cè)解決很多問題的話,用戶隱私就能得到很好的保護。”
以下為對話內(nèi)容精華:
騰訊科技:手機與深度學(xué)習(xí)的結(jié)合并不是新鮮事?,F(xiàn)在手機和大模型的結(jié)合與之前相比,有什么本質(zhì)上的不同?
欒劍:手機和AI的結(jié)合其實很早就有了,比如在拍照中對照片的調(diào)整——背景虛化、調(diào)整光線等?,F(xiàn)在把大模型加入手機,應(yīng)該說是一個升級。大模型提高的是自然語言的交互,包括文字處理的能力、多模態(tài)的處理能力等。
過去大家經(jīng)常調(diào)侃,有多少“人工”,就有多少“智能”,其實主要是指自然語言的理解能力、泛化能力不夠強。手機可能“聽到了”,但是“聽不太懂”。加入大模型,主要就是想增強自然語言的理解能力。
騰訊科技:在不久前的小米發(fā)布會上,雷總說已經(jīng)把手機端的大模型跑通了,所謂的“跑通”是如何定義的?
欒劍:我們對跑通的定義可能和很多人的理解不太一樣。在小米發(fā)布端側(cè)大模型之前,網(wǎng)上也有一些視頻Demo,說在手機上已經(jīng)把大模型跑通了。但是我覺得是否跑通有三個關(guān)鍵因素:
第一、內(nèi)存的問題。大模型的特點首先是“大”,手機上的內(nèi)存是不是能夠把模型運行起來?如果工作內(nèi)存的占用率過高,會影響對其它應(yīng)用的使用,表現(xiàn)為手機無法響應(yīng)、整體性能降低、甚至死機。
第二、算力是不是能夠支撐“生成速度”。如果說生成一個字就要幾秒,用戶體驗會非常不好。因為人的閱讀速度大概一秒鐘十幾個漢字,所以“生成速度”一定要比這個速度快,不能讓用戶去等。
第三、就是功耗問題。這也是網(wǎng)上很多在手機上跑大模型的Demo沒有去關(guān)注的問題。計算芯片負(fù)載過高會帶來手機發(fā)燙,長時間使用會造成電池續(xù)航時長大大降低。
以上三個問題如果沒有解決,Demo就只能是Demo,永遠無法真正落地。
騰訊科技:小米手機端側(cè)大模型公布的參數(shù)量是13億,按照這個參數(shù)量,需要什么樣的硬件要求,才能做到比較好的產(chǎn)品體驗?
欒劍:我們當(dāng)然希望最終所有或者大部分手機都能跑大模型,對硬件的要求越少越好。但是在第一步,我們會先在內(nèi)存最大、算力最強的手機上做實驗。即使這樣也有很多的難點。比如從功耗上來講,我們最看好NPU的方案。根據(jù)之前小米在端側(cè)落地AI模型的經(jīng)驗,同樣的模型推理,使用NPU的功耗會比CPU和GPU小很多。但是很多NPU的芯片有內(nèi)存使用的上限,我們需要想辦法繞過。
另外就是語言大模型輸出序列的長度會動態(tài)變化,而NPU常常會需要固定序列的長度。對模型進行量化,對推理結(jié)構(gòu)和算子的優(yōu)化,使得每秒生成的token數(shù)量盡可能多。而這些處理之后還要保證計算的精度損失對生成結(jié)果影響盡可能小,以及多次推理之間結(jié)果的穩(wěn)定性,等等。所以把大模型放到端側(cè)是一個復(fù)雜的過程,需要解決很多問題。
騰訊科技:還有一個關(guān)于手機跑大模型的“調(diào)侃”:如果手機端都能支持大模型,那要英偉達的卡做什么?你怎么看這個問題?
欒劍:這個問題要分成兩件事情來看。一個是訓(xùn)練,模型訓(xùn)練需要巨大的算力,一定都會在云端進行,在千卡甚至萬卡的集群上來完成。而手機端的應(yīng)用,其實我們指的是推理。在推理的時候,模型可以只激活一部分的模塊、一部分的神經(jīng)元來計算,在這種情況下,我們是有機會讓算力需求更小一點,消耗的工作內(nèi)存也更少一點。
端側(cè)大模型的優(yōu)點是,更好地保護大家的隱私數(shù)據(jù),第二讓大家可以用更低成本去獲取更多的功能。但絕對不是說用手機端就能解決所有的問題,我們還是會堅持端云一體化的道路。只是有一部分能力或者說有一部分功能,可能端側(cè)的模型就可以解決了,就沒有必要上升到云端去。
騰訊科技:所以具體來講,拿一個場景來舉例,我想吃牛排,希望小愛同學(xué)幫我找一家最近且評分最高的牛排館,這用到的是端云混合?
欒劍:對,這就涉及到一個比較復(fù)雜的問題,關(guān)于信息實時性的問題。如果不考慮實時性,我們把現(xiàn)在已有的關(guān)于餐館的所有信息,包括它的點評、美譽度等,全部都送給模型去學(xué)習(xí)的話,大模型就掌握了一個靜態(tài)的知識,實際上它也是可以幫你做推薦的,比如告訴你截止幾月幾號的時候,這家牛排餐廳最適合你。但是如果我們希望實時去更新這個信息系統(tǒng)的話,可能就需要結(jié)合云端的一些能力了。
關(guān)于哪些用了端、哪些用了云,我們其實希望對用戶來說,沒有比較明顯的感知,只要使用起來是一個特別流暢的服務(wù)就好了。
具體來說就是一些簡單的任務(wù),比如寫作、建議等,可能在端側(cè)就可以完成。而有一些比如說涉及到了特別復(fù)雜的知識體系,涉及到了一些特別實時性的新聞和信息,這個時候就必須要調(diào)用云端的能力,比如說訂火車票、訂酒店。這個不太可能提前就把這些數(shù)據(jù)都學(xué)習(xí)到,比如說那家賓館現(xiàn)在還有沒有空房,這個信息一定是實時不斷在更新的。在這個時候就必須要結(jié)合云端的能力了。
騰訊科技:小米的手機端大模型是完全自研的嗎?
欒劍:對,這里一定要強調(diào)一下我們?yōu)槭裁匆孔匝?。因為雷總(雷軍)其實也提到了小米的科技理念,對人類文明長期有價值的技術(shù)領(lǐng)域,我們會堅持長期持續(xù)投入。我們覺得大模型技術(shù)是AI未來發(fā)展的一個重要方向,所以我們一定需要自己從頭到尾每個環(huán)節(jié)都做一遍,積累這方面的經(jīng)驗,而且去了解在操作過程中的所有細節(jié)。
紙上得來終覺淺,如果只是閱讀論文去理解一下概念,我們覺得還不夠。將來我們?nèi)绻肜^續(xù)在AI領(lǐng)域深耕,取得更多的突破,可能都必須基于大模型框架,所以我們堅持要走全自研的道路。
騰訊科技:現(xiàn)在有功能強大的可開源商用的模型,這樣是不是成本更低、效率更高?為什么不考慮開源的方案?
欒劍:首先我們需要有自己定制模型結(jié)構(gòu)的能力。在各種設(shè)備終端上,使用的芯片不同,就會對模型提出各種各樣的要求,這些要求可能細節(jié)到一些算子不支持,或者某種結(jié)構(gòu)運行起來效率不高。我們必須根據(jù)硬件提出的要求,對模型結(jié)構(gòu)做一些調(diào)整。
如果想修改模型結(jié)構(gòu)的話,就一定需要具備從頭開始訓(xùn)練的能力。因為開源模型的結(jié)構(gòu)是固定的,沒有辦法調(diào)整,就不能滿足小米的需求。
騰訊科技:雷總說小米不做通用大模型,要堅持研發(fā)輕量化的大模型。這是怎么考慮的呢?
欒劍:我們開始嘗試大模型技術(shù)其實非常早,曾經(jīng)在對話大模型上做過嘗試,所以有經(jīng)驗和積累,對這項技術(shù)本身也有自己的理解。
我們當(dāng)時就預(yù)判可能在年底之前,行業(yè)就會出現(xiàn)很多復(fù)刻通用大模型能力的公司,那么我們覺得小米應(yīng)該還是去發(fā)揮自己的特色,而不要說哪里人多就往哪去扎堆。
我們要去補足這個行業(yè)里面大家還不太重視的,或者說還比較缺的一些方面。小米的特色是什么?我們覺得小米的特色是有很多的端側(cè)設(shè)備,怎么樣把這些端側(cè)的設(shè)備利用好,把大模型能夠放到端側(cè)設(shè)備里面去。首先這就是一件很酷的事情。其次我們也考慮到很多用戶可能對個人數(shù)據(jù)上傳到云端是有顧慮的,如果能夠在端側(cè)解決很多問題的話,用戶隱私就能得到很好的保護。
同時通用大模型的參數(shù)量很大、部署成本很高,將來用戶的使用成本也會是一個很大的問題。在這種情況下,小米又一直希望讓所有人都能體驗到科技帶來的美好生活,所以我們一定要想方設(shè)法嘗試一條道路,讓大家既能夠保護數(shù)據(jù)的安全,也能夠以盡量低的成本去使用這項技術(shù)。
騰訊科技:但是關(guān)于大模型,用一句俗話說就是“暴力出奇跡”,參數(shù)越大,可能泛化能力更好,把參數(shù)做小的話,它是否會喪失某些能力?
欒劍:這是個很好的問題,我們對這件事的看法會不太一樣。我們認(rèn)為大模型技術(shù)本身并不只是說參數(shù)量大,我們更看重的是它帶來了技術(shù)的一個新范式。大模型為什么會產(chǎn)生這樣的能力,需要首先對它的底層邏輯有一個更清楚的認(rèn)識和理解。
我們覺得大模型的涌現(xiàn)能力,可能并不完全依賴于參數(shù)量大。在訓(xùn)練數(shù)據(jù)的選擇上,在訓(xùn)練策略和訓(xùn)練任務(wù)的選擇上,其實帶來的影響可能更大。也就是說如果我們只用過去某個傳統(tǒng)任務(wù)的數(shù)據(jù)去訓(xùn)練的話,即使把模型參數(shù)規(guī)模做得再大,它可能也達不到我們現(xiàn)在看到的這種涌現(xiàn)能力。
所以我把這個新范式總結(jié)成三個“大”:第一是說數(shù)據(jù)量要大;第二是任務(wù)要大;第三才是模型的參數(shù)量要大。數(shù)據(jù)量大,能從中挖掘的常識和知識的豐富度和覆蓋面才大。參數(shù)量大,模型才能存儲足夠的知識規(guī)模。任務(wù)大,或者說任務(wù)足夠復(fù)雜,才可能迫使模型內(nèi)部必須將各種子能力模塊化,通過這些模塊化的子能力組合才有可能完成各種各樣的復(fù)雜任務(wù)。只有這樣大模型才真正的泛化出一些沒有特意訓(xùn)練的新能力來,產(chǎn)生涌現(xiàn)。
所以基于這個理解,模型的參數(shù)量到底需要多大,其實還有很多探索的空間。最開始的時候很多人說需要千億、萬億的參數(shù)規(guī)模才能涌現(xiàn)。后來也有一些論文說,我們百億參數(shù)的模型好像也能夠涌現(xiàn)。然后前一陣,好像也有論文說10億的模型也涌現(xiàn)了。這個趨勢和我們最初的認(rèn)識非常契合。
騰訊科技:所以現(xiàn)在把參數(shù)量做小,13億的參數(shù),和以前的小模型有本質(zhì)區(qū)別嗎?
欒劍:我認(rèn)為本質(zhì)區(qū)別是訓(xùn)練范式的變化,而不只是模型大小的變化。因為即使是一個參數(shù)量相對較小的模型,如果用大模型的方式去訓(xùn)練它,比如預(yù)訓(xùn)練采樣多種多樣的數(shù)據(jù),從理論上來說,它還是有機會掌握和人一樣的基礎(chǔ)常識和知識體系。在這個基礎(chǔ)上再去迭代,效果上一定比以前的小模型會有顯著提升。
騰訊科技:所以13億參數(shù)的手機端模型,是不是也“涌現(xiàn)”了?
欒劍:對,我們在13億參數(shù)的模型上觀察到了“涌現(xiàn)”。但是這里也要強調(diào)一點,大家千萬不要認(rèn)為13億參數(shù)的端側(cè)模型就能夠完全替代或者完全媲美云端千億參數(shù)的大模型,它們肯定還是有差距。因為參數(shù)規(guī)模其實就代表了大模型能存儲的知識量。那么這個差距有沒有辦法來彌補?
我們說在部分場景媲美了云端更大的模型的效果,而不是在所有的場景。所以我們會基于對具體場景的深刻認(rèn)識,專注于用戶使用頻率最高、在某個設(shè)備上最可能用到的場景。我們希望端側(cè)模型在這些場景做到極致的效果。
騰訊科技:13億的手機端模型,在某些場景下可以媲美60億參數(shù)的云端大模型,這里更看重哪些場景?小米內(nèi)部有沒有排序?
欒劍:關(guān)于應(yīng)用場景,我覺得現(xiàn)在大家都還在探索的階段。我們有一些思考,可能在小米將來的產(chǎn)品發(fā)布會上會陸續(xù)展示。但是從技術(shù)上需要提前證明,一個13億參數(shù)的模型在任何一個你期望它表現(xiàn)好的目標(biāo)場景,我們都是有辦法去做定制的。在這個目標(biāo)場景和需要的知識領(lǐng)域上,我們有能力做極致的增強。
騰訊科技:小米的端側(cè)大模型也去打榜了,如何看待這件事?目前大模型評測并沒有國際公認(rèn)的標(biāo)準(zhǔn),為什么小米還要去做?
欒劍:大模型的評測確實是一件挺難的事情。剛剛說大模型是一個新的范式,其實一個范式除了對底層邏輯的解釋,也需要有一整套的訓(xùn)練方法及評估方法。對大模型來說,這一整套合理的評估方法,大家還在探索中,沒有公認(rèn)的標(biāo)準(zhǔn)。
那么怎樣去驗證我們這個模型到底訓(xùn)練得好不好?還是需要找一些方法去測試一下。雖然打榜可能不是一個特別全面、特別完整的方法,但是它也是我們目前能找到的一個比較好的方法,或者說大家還比較認(rèn)可的方法。最近已經(jīng)有越來越多的大模型參與了這幾個榜單的評估,尤其在小米發(fā)布會之后的這段時間上榜的模型特別密集,大家紛紛把榜單成績越刷越高。
但同時我們還是要清醒地認(rèn)識到,目前的這些榜單絕大部分都是學(xué)科問題,而且是選擇題為主,所以用它們對評估大模型的能力是有局限性的。如果我們把這些學(xué)科的知識、這些學(xué)科搜集到的試題,都拿來對大模型做增強學(xué)習(xí),它的效果一定可以達到很好。但是做這樣的訓(xùn)練對大模型其它方面的能力會不會帶來負(fù)面的影響呢?我們也觀察到有一些開源的大模型迭代了版本之后,打榜的分?jǐn)?shù)提高得很明顯,但如果測試它的生成能力,比如寫作水平,發(fā)現(xiàn)其實是有下降的。
所以我們看待打榜,只是從一個側(cè)面驗證一個基座大模型是不是能在某個領(lǐng)域里做到極致,但不代表說它就一定能給用戶帶來最好的應(yīng)用體驗。
可能將來我們也不太會再強調(diào)榜單上的排名,而把主要精力放在小米的產(chǎn)品上面,聚焦怎樣把體驗做好,讓用戶滿意。
騰訊科技:剛才提到了小米有很多多模態(tài)的數(shù)據(jù),未來如何看待多模態(tài)和大模型結(jié)合的應(yīng)用前景?
欒劍:現(xiàn)在行業(yè)里有很多公司開始做多模態(tài)大模型,已經(jīng)有了一些效果,比如根據(jù)文字來生成視頻,或者是用文字來搜圖片這樣的一些功能,但是我覺得這些應(yīng)用還是叫跨模態(tài)可能更加合適。
所謂跨模態(tài)就是輸入是一種模態(tài),輸出是另外一種模態(tài)。而真正的多模態(tài)應(yīng)該輸入可以是多個模態(tài),輸出也可以是多個模態(tài)。所以我覺得多模態(tài)這條路還在探索的初級階段,其實還有很多技術(shù)難點需要解決和突破。
多模態(tài)研究的一個思路是認(rèn)為人類的絕大部分知識存在于文字當(dāng)中,所以需要基于大語言模型這個框架。這也是大模型首先在自然語言這個領(lǐng)域取得突破的原因之一,因為它存儲的知識量最大。
但是還有很多常識是和空間有關(guān)系、跟視覺有關(guān)系,或者跟聽覺、味覺、觸覺有關(guān)系。所以下一步需要考慮把其它模態(tài)也放進來,在同一個語義空間里面和自然語言做對齊,在自然語言搭好的框架里面不斷補充新的信息和內(nèi)容,使得大模型最終能真正達到像人類一樣去認(rèn)識和理解這個世界。
剛才提到的小米的各種設(shè)備里面,除了視覺以外,其實還有各種其他的傳感器,比如溫度傳感器,震動傳感器,或者是海拔、加速度的感知等等,如何讓它們也通過大模型進行處理?
我覺得這是另外一種模態(tài),由純時序的數(shù)據(jù)組成。如果大模型對它們也能夠充分理解,可能會帶來一些更奇妙的變化,比如通過家居場景的所有設(shè)備相互配合完成一些復(fù)雜的功能。
騰訊科技:對于手機廠商布局端側(cè)大模型這個動作,消費者或用戶會有強烈感知嗎?
欒劍:首先我覺得從手機廠商來說,一定會探索這種可能性。如果不探索的話,未來有可能在這個領(lǐng)域落后。其次從用戶角度來看這件事情,用戶可能一開始不會有那么強烈的感知用到的是端側(cè)還是云端。但是他們將來一定會發(fā)現(xiàn)在一些場景上,比如說一些特別隱私的問題,用端側(cè)會更加安全。
其實現(xiàn)在的一些新聞報導(dǎo),也讓大家開始重視個人隱私的安全。在這種情況下,端側(cè)對用戶來說一定是有用的。但同時我覺得這也依賴于手機廠商對硬件和軟件整合的能力,把端側(cè)大模型的能力做得越來越強,這個時候用戶體驗就會變得越來越好,用戶又會更加地覺得這是一個有用的東西。
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn