看過劇版《三體》的讀者或許都記得一個名場面:來自三體的智子封鎖了人類科技,還向地球人發出了「你們是蟲子」的宣告。但沒有超能力的普通人史強卻在蝗群漫天飛舞的麥田中喊出:「把我們人類看成是蟲子的三體人,他們似乎忘了一個事實,那就是蟲子從來就沒有被真正地戰勝過」。
三體人看到的是單個蟲子脆弱的一面 —— 你可以輕松踩死一只螞蟻,打死一只蝗蟲、蜜蜂。但他們沒有看到的是,當這些蟲子集結在一起時,它們可以涌現出遠超個體簡單相加的力量。
科學家們很早就發現了這種力量,并將其命名為「群體智能」(Swarm Intelligence)。這種智能不是由某個中央大腦控制,而是通過個體間的簡單互動和信息交換自然形成的。它是一種集體智慧的體現,是自然界中一種奇妙而高效的協作方式。
其實,從宏觀上說,人類社會的不斷發展和演化也是一種群體智能現象,絕大多數文明成果都是人類個體在長期群體化、社會化的生產生活中逐漸演化形成的產物。
那么,人工智能的發展能否借鑒這種模式?答案自然是「能」。但長期以來,由于機器的個體智能化程度較低等原因,「群體智能」遲遲難以涌現。
生成式 AI 的發展或許可以推動這些問題的解決,也讓「群體智能」獲得了新一輪的關注。
「這波生成式 AI 相當于把個體的智能化水平提升上去了。而個體智能的提升,意味著群體的智能有望實現指數級增長?!乖诮诘囊淮卧L談中,RockAI CEO 劉凡平向機器之心表達了這樣的觀點。
RockAI 是一家成立于 2023 年 6 月的 AI 初創,他們自研了國內首個非 Attention 機制的 Yan 架構通用大模型,并將這個大模型部署在了手機、PC、無人機、機器人等多種端側設備上,還嘗試讓自己的大模型在這些設備上實現「自主學習」能力。
而這一切均服務于一個宏大的目標 —— 讓每一臺設備都擁有自己的智能,而且是可以像人類一樣實時學習、個性化自主進化的系統。劉凡平認為,當這些擁有不同能力、不同個性的智能單元得以協同,即可完成數據共享、任務分配和策略協調,涌現出更為宏大、多元的群體智能,最終實現個性化與群體智能的和諧統一,開啟人與機器的智能新時代。
那這一切怎么去實現呢?在訪談中,劉凡平和鄒佳思(RockAI 聯合創始人)向機器之心分享了他們的路線圖和最新進展。
一條不同于 OpenAI 的 AGI 路線
前面提到,「群體智能」的研究進展受限于單個個體的智能化程度,所以研究者們首先要解決的問題就是讓單個個體變得足夠聰明。
要說「聰明」,OpenAI 的模型可以說是出類拔萃。但從目前的情況來看,他們似乎更側重于訓練出擁有超級智能的單個大模型。而且,這條路線走起來并不容易,因為它高度依賴海量的數據和計算資源,這在能源、數據和成本上都帶來了可持續性的問題。
此外,通過一個超級智能模型來處理所有任務是一種高度中心化的模式,這在實踐中容易出現智能增長的瓶頸,因為單一模型缺乏靈活的適應能力和協作效應,導致其智能提升速度受到限制。
那么,OpenAI 未來有沒有可能也走群體智能的路線?這個問題目前還沒有明確答案。但可以看到的一點是,以該公司和其他大部分公司當前采用的 Transformer 架構去構建群體智能的單個個體可能會遇到一些障礙。
首先是高算力需求的障礙。以 Attention 機制為基礎的 Transformer 架構對計算資源的需求非常高,其計算復雜度為 O (n^2)(n 為序列長度)。這意味著隨著輸入序列的增長,計算成本急劇增加。在構建群體智能時,我們需要多個單元大模型協同工作,而這些單元大模型往往部署在低算力的設備上(如無人機、手機、機器人等)。如果不經過量化、裁剪等操作,Transformer 架構的模型很難在低算力設備上直接部署。所以我們看到,很多公司都是通過這些操作讓模型成功在端側跑起來。
但對于群體智能來說,光讓模型跑起來還不夠,還要讓它們具備自主學習的能力。在劉凡平看來,這一點至關重要。
他解釋說,在一個沒有自主學習的群體中,最聰明的個體會主導其他智能體的決策,其他智能體只能跟隨它的指引。這種情況下,群體智能的上限就是最聰明個體的水平,無法超越。但通過自主學習,每個智能體都可以獨立提升自身的智能水平,并逐漸接近最聰明的個體。而且,自主學習促進了知識共享,類似于人類的知識傳承。這樣,群體中的所有智能體都會變得更聰明,群體整體的智能水平有望實現指數級增長,遠遠超出簡單的個體累加。
而量化、裁剪等操作最致命的問題,就是破壞了模型的這種自主學習能力?!府斠粋€模型被壓縮、量化、裁剪之后,這個模型就不再具備再學習的能力了,因為它的權重已經發生了變化,這種變化基本是不可逆的。這就像我們把一個螺絲釘釘入墻中,如果在敲入的過程中螺絲釘受到損壞,那么想要把它取出來重新使用就變得很困難,讓它變得更鋒利就變得不可能?!箘⒎财浇忉屨f。
講到這里,實現群體智能的路線其實就已經非常清晰了:
首先,你要在架構層面做出改變,研發出一種可以克服 Transformer 缺陷的新架構。
然后,你要將基于這個架構的模型部署到各種端側設備上,讓模型和這些設備高度適配。
接下來,更重要的一點是,這個架構的模型要能夠在各種端側設備上自主學習,不斷進化。
最后,這些模型與端側設備結合成的智能體要能夠自主協作,共同完成任務。
這其中的每個階段都不簡單:
在第一階段,新架構不止要具備低算力、部署到端側原生無損的特點,還要具備可以媲美 Transformer 架構的性能,保證單個個體足夠聰明且可以自主學習。
在第二階段,「大腦和身體」的高度適配涉及感知層面和數據處理的不同模態,每種設備有著不同的需求,這增加了模型和設備適配的復雜性。
在第三階段,讓模型部署之后還可以學習就意味著要挑戰現有的訓練、推理完全分離的機制,讓模型參數在端側也可以調整,且調整足夠快、代價足夠小。這就涉及到對傳統反向傳播機制的挑戰,需要的創新非常底層。
在第四階段,主要挑戰是如何實現智能體之間的有效協作。這個過程要求智能體自主發現并形成完成任務的最佳方案,而不是依賴于人為設定或程序預設的方案。智能體需要根據自己的智能水平來決定協作的方式。
這些難點就決定了,RockAI 必須走一條不同于 OpenAI 的路線,挑戰一些傳統的已經成為「共識」的方法。
劉凡平提到,在前兩個階段,他們已經做出了一些成果,針對第三、四個階段也有了一些實驗和構想。
群體智能的單元大模型 ——Yan 1.3
第一階段的標志性進展是一個采用 Yan 架構(而非 Transformer 架構或其變體)的大模型。這個模型的 1.0 版本發布于今年的 1 月份,為非 Attention 機制的通用自然語言大模型。據了解,該模型有相較于同等參數 Transformer 的 7 倍訓練效率、5 倍推理吞吐和 3 倍記憶能力。而且,這一模型 100% 支持私有化部署應用,不經裁剪和壓縮即可在主流消費級 CPU 等端側設備上無損運行。
經過半年多的攻關,這一模型剛剛迎來了最新版本 ——Yan 1.3。
Yan 1.3 是一個 3B 參數的多模態模型,能夠處理文本、語音、視覺等多種輸入,并輸出文本和語音,實現了多模態的模擬人類交互。
盡管參數量較小,但其效果已超越 Llama 3 8B 的模型。而且,它所用的訓練語料比 Llama 3 要少,訓練、推理算力也比 Llama 3 低很多。這在眾多非 Transformer 架構的模型中是一個非常領先的成績,其訓練、推理的低成本也讓它比其他架構更加貼近工業化和商業化。
這些出色的性能得益于高效的架構設計和算法創新。
在架構層面,RockAI 用一個名叫 MCSD(multi-channel slope and decay)的模塊替換了 Transformer 中的 Attention 機制,同時保留 Attention 機制中 token 之間的關聯性。在信息傳遞過程中,MCSD 強調了有效信息的傳遞,確保只有最重要的信息被傳遞給后續步驟,而且是以 O (n) 的復雜度往下傳,這樣可以提高整體效率。在驗證特征有效性和 token 之間的關聯性方面,MCSD 表現優秀。
在算法層面,RockAI 提出了一種類腦激活機制。這是一種分區激活的機制,就像人開車和寫字會分別激活腦部的視覺區域和閱讀區域一樣,Yan 1.3 會根據學習的類型和知識范圍來自適應調整部分神經元,而不是讓全量的參數參與訓練。推理時也是如此。具體有哪些神經元來參與運算是由仿生神經元驅動的算法來決定的。
在今年的 GTC 大會上,Transformer 論文作者之一 Illia Polosukhin 提到,像 2+2 這樣的簡單問題可能會使用大模型的萬億參數資源。他認為自適應計算是接下來必須出現的事情之一,我們需要知道在特定問題上應該花費多少計算資源。RcokAI 的類腦激活機制是自適應計算的一種實現思路。
這或許聽起來和 MoE 有點像。但劉凡平解釋說,類腦激活機制和 MoE 有著本質的區別。MoE 是通過「專家」投票來決定任務分配,每個「專家」的網絡結構都是固定的,其結果是可預測的。而類腦激活機制沒有「專家」,也沒有「專家」投票的過程,取而代之的是神經元的選擇過程。其中的每個神經元都是有價值的,選擇的過程也是一個自學習的過程。
這種分區激活機制在 MCSD 的基礎上進一步降低了 Yan 架構模型的訓練、推理計算復雜度和計算量。
「這也符合人類大腦的運行方式。人腦的功耗只有二十幾瓦,如果全部的 860 億個神經元每次都參與運算,大腦產生的生物電信號肯定是不夠用的?!箘⒎财秸f道。目前,他們的類腦激活機制已經得到了腦科學團隊的理論支持和實際論證,也申請到了相關專利。
以端側設備為載體,邁向群體智能
在 Yan 1.3 的發布現場,我們看到了該模型在 PC、手機、機器人、無人機等端側設備的部署情況。鑒于 Yan 1.2 發布時甚至能在樹莓派上運行,這樣的端側部署進展并不令我們感到意外。
那么,為什么一定要把模型部署在端側呢?云端的模型不行嗎?鄒佳思提到,這是因為模型要跟機器本體做高度適配。以機器人為例,設備的很多參數是難以與云端大模型融合。端側大模型更容易讓機器人肢體協調、大小腦協同工作。
而且我們知道,這些端側智能體的潛力才剛剛顯露。畢竟,以上創新的目標不只是讓模型能夠在端側跑起來(當前很多模型都能做到這一點),而是使其具備自主學習的能力,作為「群體智能的單元大模型」持續進化。無論是 Yan 架構的「0 壓縮、0 裁剪」無損部署,還是分區激活的高效計算,都是服務于這一目標。這是 RockAI 和其他專注于端側 AI 的公司的一個本質區別。
「如果我們拿一個 10 歲的孩子和一個 30 歲的博士來比,那肯定 30 歲的博士知識面更廣。但是,我們不能說這個 10 歲的孩子在未來無法達到甚至超越這位博士的成就。因為如果這個 10 歲的孩子自我學習能力足夠高,他的未來成長速度可能比 30 歲的博士還要快。所以我們認為,自主學習能力才是衡量一個模型智能化程度的重要標志?!箘⒎财秸f道??梢哉f,這種自主學習能力才是 RockAI 追求的「scaling law」。
為了實現這種自主學習能力,RockAI 的團隊提出了一種「訓推同步」機制,即讓模型可以在推理的同時,實時有效且持續性地進行知識更新和學習,最終建立自己獨有的知識體系。這種「訓推同步」的運行方式類似于人類在說話的同時還能傾聽并將其內化為自己的知識,對底層技術的要求非常高。
為此,RockAI 的團隊正在尋找反向傳播的更優解,方法也已經有了一些原型,并且在世界人工智能大會上進行過展示。不過,他們的方法原型目前仍面臨一些挑戰,比如延遲。在后續 Yan 2.0 的發布中,我們有望見到原型升級版的演示。
那么,在每一臺設備都擁有了智能后,它們之間要怎么聯結、交互,從而涌現出群體智能?對此,劉凡平已經有了一些初步構想。
首先,它們會組成一個去中心化的動態系統。在系統中,每臺設備都擁有自主學習和決策的能力,而不需要依賴一個中央智能來控制全局。同時,它們之間又可以共享局部數據或經驗,并通過快速的通信網絡互相傳遞信息,從而在需要時發起合作,并利用其他智能體的知識和資源來提升任務完成的效率。
路線「小眾」,挑戰與機遇并存
縱觀國內 AI 領域,RockAI 走的路可以說非?!感”姟?因為里面涉及到非常底層的創新。在硅谷,有不少人在做類似的底層研究,就連「神經網絡之父」Hinton 也對反向傳播的一些限制表示過擔憂,特別是它與大腦的生物學機制不符。不過,大家目前都還沒有找到特別有效的方法,因此這一方向還沒有出現明顯的技術代差。對于 RockAI 這樣的國內企業來說,這既是挑戰,也是機遇。
對于群體智能,劉凡平相信,這是一條邁向更廣泛的通用人工智能的路線,因為它的理論基礎是非常堅實的,「如果沒有群體智能,就沒有人類社會的文明,更不會有科技的發展」。
而且,劉凡平認為,群體智能所能帶來的生產力變革比擁有超級智能的單個大模型所能帶來的更全面、更多樣。隨著自主架構大模型的研發成功和多元化硬件生態的構建,他們相信自己正在逐漸接近這一目標。
我們也期待看到這家公司的后續進展。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!