作者:中國科學院復雜系統管理與控制國家重點實驗室研究員 王飛躍
作為信息化、數字化、智能化的新型技術基座,生成式人工智能對于提升國家戰略地位與國際競爭力具有重要意義。2022年11月以來,隨著以ChatGPT為代表的大語言模型迅速發展,生成式人工智能(Generative Artificial Intelligence, GenAI)推動人工智能從算法智能(Algorithmic Intelligence,AI)進入語言智能(Linguistic Intelligence,LI)時代,正在全面革新社會生產力。當前,大語言模型成為現代人工智能的基石,構筑起連接多模態的橋梁。2024年2月美國OpenAI發布的Sora,以其長達1分鐘的高質量視頻生成能力,進一步開啟了想象智能(Imaginative Intelligence,II)新時代。Sora初步體現出世界模擬器的能力,為探索通用人工智能(Artificial General Intelligence, AGI)邁出了重要一步。我國近年來也在生成式人工智能領域不斷取得進展,文心一言、通義千問、盤古、混元、Kimi等大模型在中文應用領域建立優勢,呈現出“百模爭鳴”的繁榮局面。同時,我國生成式人工智能也面臨著算法低效、數據不足、算力緊缺、能耗過高等問題,特別是我國在芯片受限的情況下,算力問題尤為突出。本文將介紹生成式人工智能的發展,重點分析我國生成式人工智能所面臨的挑戰,進一步討論對策,并展望未來發展趨勢。
生成式人工智能的源起與發展
生成式人工智能是指一類能夠自主生成新內容的人工智能技術,這些內容可以包括文本、圖像、音頻和視頻等多種形式。生成式人工智能通過學習已有數據的模式和結構,創造出全新的、未曾出現過的數據實例。生成式人工智能的核心在于其創造性和創新性,它不僅僅是復制或模仿現實,而是能夠基于已有知識進行創新,生成有價值的新內容。生成式人工智能模型的例子包括生成對抗網絡(GAN)、變分自編碼器(VAE)和生成式預訓練Transformer(GPT)等。生成式人工智能應用領域廣泛,已經對藝術、設計、娛樂,甚至科學研究帶來實質變革。生成式人工智能的發展前景廣闊,它不僅能夠為人們的日常生活帶來便利, 還能夠幫助人們提高工作效率,促進產業升級,推進社會發展。
生成式人工智能研究范式與之前的深度學習有著明顯的不同之處。在過去,深度學習的理論與算法研究主要由學術界參與,而生成式人工智能的發展主要由包括Open AI、 Google、Met、Anthropi、Midjourney和Stability AI在內的多家公司推動。這些公司在生成式人工智能領域投入了大量資源,并通過研發和商業應用推動了技術的進步和應用,使得生成式人工智能能夠更快地從實驗室走向市場,并在各個領域取得廣泛的應用和影響。
生成式人工智能在創造新內容和推動技術進步的同時,也可能帶來一系列安全問題,主要包括以下幾個方面:
在虛假信息方面,生成式人工智能能夠制作逼真的文本、圖像、音頻和視頻內容,這可能導致虛假新聞、偽造證據和誤導性信息的產生和傳播,對社會秩序和公共安全造成威脅。通過生成式人工智能技術,深度偽造技術(Deepfakes)可以創建逼真的偽造人臉和聲音,這可能被用于身份冒充、欺詐和誹謗,侵犯個人隱私和名譽權。生成式人工智能模型可能被用于制造惡意軟件或進行網絡攻擊,例如生成用于釣魚攻擊的逼真電子郵件或創建用于繞過安全系統的虛假憑證。
在版權與隱私保護方面,在訓練生成式人工智能模型時,可能需要大量的個人數據,這些數據如果未經妥善處理,可能會泄露個人隱私,增加數據泄露的風險。生成式人工智能在創作過程中可能會無意中復制或模仿受版權保護的作品,從而引發知識產權糾紛。
在倫理和道德方面,生成式人工智能在創作內容時,可能缺乏人類的判斷和審查,從而產生不當或不敏感的輸出。為此,世界各國正在加速立法,鼓勵生成式人工智能技術的創新應用,同時規定了服務提供者和使用者應當遵守的基本規范,包括尊重知識產權和他人合法權益,提高生成內容的準確性和可靠性等,確保其健康有序地發展。
此外,據《紐約客》相關報道,OpenAI的GPT-3在訓練階段單次耗電量高達128.7萬度;而ChatGPT部署上線后,按照日均請求2億次計算,支撐推理應答服務的耗電高達每天50萬度。在我國,根據公開資料,三峽大壩年平均發電量約為850億度,而2022年我國主要數據中心耗電量達到2700億度,已是三峽年均發電量的3倍多。冷卻用水消耗、碳排放足跡等,也將對生態環境造成不可忽視的影響。
我國生成式人工智能發展現狀
總體情況。自2022年11月ChatGPT發布以來,國產大模型迅速崛起,形成了“百模爭鳴”的繁榮局面。百度的文心1.0通用大模型自2019年首次推出后,已升級至4.0版本。阿里云、華為、騰訊、科大訊飛等公司也推出了各自的通用大模型,如通義千問、盤古、混元和星火等,并向公眾開放。在這場競賽中,初創企業也取得了顯著成就,例如“月之暗面”推出的Kimi智能助手大模型,支持高達200萬漢字的上下文長度,引起了業界廣泛關注。學術界也積極參與國產大模型的研究,例如中科院自動化所發布了全球首個圖文音三模態預訓練模型——紫東太初大模型,上海人工智能實驗室與復旦大學聯合發布了書生·浦語通用大模型(InternLM)。為推動技術與市場發展,一些廠商提供了開源版本的大模型,如阿里云的Qwen系列、零一萬物的Yi系列、智譜華章的GLM系列、科大訊飛的iFlytekSpark系列、百川智能的Baichuan系列等。這些開源模型為研究和應用提供了便利,進一步促進了國產大模型技術的創新和應用。
為了增強對蓬勃發展的國產大模型的認識,新華社研究院中國企業發展研究中心于2023年發布了三版《2023年人工智能大模型體驗報告》,回顧了大模型產品市場的激烈競爭,并對當前大模型產品和廠商進行了整體測評。同時,多個機構也推出了各自的大模型評測體系和排行榜,如“司南”(OpenCompass)、C-Eval、SuperCLUE等,廠商間的激烈競爭彰顯了該行業的活力與吸引力。排行榜在展現國產大模型激烈競爭的同時,也揭示出業內的亂象,例如模型套殼、評分作假等。
領域應用。在通用大模型的基礎上發展領域專用模型,推進垂直領域應用是我國生成式人工智能領域的特色。國內專用領域大模型在科學研究、教育、醫學、工業、金融多個行業得到應用和發展。
在AI4S(AI for Science)領域,華為的盤古氣象大模型利用深度神經網絡和地球先驗知識,實現了高精度的實時氣象預測,超越了傳統數值預測方法。化學領域,中國科學技術大學提出的Chem-GPT模型/華東師范大學的提出的ChenGPT1.0/上海交通大學提出的BAI-Chem大模型,以及西北工業大學與華為合作的“秦嶺·翱翔”流體力學大模型,均在各自領域取得了一定的成果。
在教育領域,華東師范大學和北京語言大學分別開發的EduChat和桃李教育大模型,以及學而思的九章大模型(MathGPT)和網易有道的子曰教育大模型,展示了大模型在輔助教學過程中的重要作用。
在工業領域,中國廣核集團推出的“錦書”核工業語言大模型、中科院大連化物所的化工大模型、中工互聯公司的“智工”大模型,以及中煤科工西安研究院的“GeoGPT”地質大模型,提升了工業領域的智能化水平。
在醫學領域,華南理工大學的生活空間健康大模型扁鵲(BianQue)和心理健康大模型靈心(SoulChat)、香港中文大學的華佗GPT模型、浙江大學的啟真醫療大模型、醫聯科技的medGPT大模型,以及多個中醫藥大模型如百度健康的岐黃問道大模型、華東師范大學的神農中醫藥大模型(ShenNong-TCM)、復旦大學和同濟大學合作的仲景中醫大語言模型(CMLM-ZhongJing)、南京大學與鄭州大學的黃帝模型(Huang-Di)等等,推動了醫療健康領域的智能化發展。
在金融領域,中國科學院成都計算機應用研究所的“聚寶盆”金融知識問答大模型、度小滿的“軒轅”千億級開源金融大模型、恒生電子的LightGP、瀾舟科技的孟子大模型,以及香港科技大學的InvestLM投資金融大模型,在金融行業中發揮日益重要的作用。
這些行業大模型初步提升了行業生產效率,不斷塑造新動能、新優勢。同時,大模型在某些行業的落地應用還存在很多挑戰,發展前景具有不確定因素。
政策法規。為了國產大模型的規范化和健康化發展,國家網信辦聯合國家發展改革委、教育部、科技部等七部門聯合發布《生成式人工智能服務管理暫行辦法》,規定對生成式人工智能大模型實施“備案制”管理。此外,為了滿足當前國產大模型發展所引發的巨大算力需求,我國陸續出臺了《全國一體化大數據中心協同創新體系算力樞紐實施方案》《算力基礎設施高質量發展行動計劃》《“十四五”數字經濟發展規劃》等一系列文件推動算力基礎設施建設。
我國生成式人工智能面臨的挑戰
雖然我國在生成式人工智能領域呈現出繁榮景象,但與國際領先水平相比,我國在算力設施、數據質量、算法創新、資金投入、人才儲備、產業發展、生態建設等方面仍有一定差距。
算力。在AI算力領域,美國英偉達公司在全球占據主導地位,而國內AI芯片制造商如華為、寒武紀、摩爾線程、壁仞科技、海光信息、天數智芯等也在積極發展,百度、科大訊飛等企業也聯合國產芯片廠開放部署了自主可控大模型算力底座“星火一體機”、“飛星一號”等平臺。其中,華為在AI計算領域水平最為領先,推出了基于達芬奇架構的昇騰系列AI芯片。面對當前海外高性能芯片進口受限的現實,國產高性能芯片取得了一定的發展,但與國際先進水平相比,仍存在一定差距。
以英偉達的H100(SXM)和華為的昇騰Ascend 910B為例,作為國際和國內主力AI芯片,H100(SXM)的FP16算力達到1979TFLOPS,是昇騰910B的5.2倍;顯存方面,H100(SXM)的80G HBM3是昇騰910B的64GHBM2的1.25倍,且新一代顯存帶來的性能差距更大。此外,H100(SXM)采用NVLINK技術,具有900GB/s的卡間互聯帶寬,是昇騰910B的2.25倍。英偉達的CUDA架構和專用庫如CuDNN,形成了成熟的軟硬件生態,而華為的CANN架構雖在不斷完善,但起步較晚,在算子豐富度及算法優化方面仍存在差距。尤其值得注意的是,英偉達等企業的AI芯片快速迭代升級,而我國由于受到芯片制造技術封鎖,產品更新速度大大減慢。英偉達在2023年發布了新一代H200芯片,顯存容量提升至141G,大模型推理速度翻倍。2024年3月,英偉達又發布了Blackwell計算平臺,性能顯著提升。例如,訓練1.8萬億參數的GPT-4,使用Blackwell平臺相比Hopper能耗大幅降低。相比之下,華為的昇騰Ascend 910在2019年就已推出,而升級版Ascend 910B在2023年才小規模投入使用。此外,谷歌基于自研TPU的算力平臺已經體現出強大的實力,近期備受關注的Groq公司研發的大語言模型推理芯片LPU,推理速度可達H100的十倍。綜合來看,我國與國際算力先進水平的差距短期內進一步拉大。
數據。數據是生成式人工智能的核心要素之一,我國在人工智能訓練數據的質量和數量、管理、共享、應用等方面與國外英文數據相比,存在一些差距和挑戰:
在數據質量和多樣性方面,我國的中文數據雖然近年來快速增長,但在某些領域,如專業醫療、法律等,高質量的標注數據仍然相對不足。英文數據由于互聯網歷史較長、用戶基數大,覆蓋了廣泛的文化和語境,積累了大量的高質量文本和多媒體數據,這有助于訓練出更具泛化能力的AI模型。中文數據雖然在本土文化和語境上具有優勢,但在處理多方言、多文化背景下的數據上,仍需加強多樣性和包容性。
在數據管理和共享方面,我國公共數據范圍廣泛,但在開放共享和開發利用方面存在不足。例如,天氣數據在范圍和歷史跨度上有所限制,法律領域的裁判文書網由公開轉為內網查詢。社會力量主要依賴海外優質開源數據集,中文語料主要來源于網絡公開數據,政府數據貢獻相對較少。為提升我國在AI領域的競爭力,需要加強公共數據的開放共享,優化數據管理和利用,鼓勵政府和社會力量的合作,共同推動數據資源的高效開發和應用。總體而言,中文語料庫的量、質、開源情況都不如英文,存在數據資源碎片化和流通機制不完善的問題,尚未形成對大模型提供有效數據資源的生態,一定程度上阻礙了我國生成式人工智能的發展。
算法。算法、數據和算力是深度學習三大要素。在基礎算法方面,2017年谷歌提出的Transformer已經成為生成式AI的核心模塊。此后,多模態領域的CLIP,生成式領域的擴散模型(Diffusion Model)、混合專家模型(MoE)等方法均由國外機構提出并發展,而我國科研機構提出的創新方法相對較少且影響力不足。
在大語言模型方面,谷歌的Bert和OpenAI的GPT最先開啟了新時代,特別是OpenAI發布的 ChatGPT成為AI發展路程上的一個里程碑。而后續的GPT-4以其在多數任務指標上的優異表現,在眾多語言大模型中仍然占據榜首。Meta開源的Llama大模型雖然稍晚性能稍遜,但是其開源屬性,成為世界上眾多大模型的源頭。在文本生成圖像方面,OpenAI的DALL·E和谷歌的Imagen在2022年最先發布,以其高真實度的效果迅速引起了全球范圍的注意,人工智能生成內容(AIGC)進入新時代。在文本生成視頻方面,OpenAI在2024年2月發布Sora,再次取得歷史性突破。在大語言模型領域,國內的百度、智源、中科院等單位具有先發優勢,推出文心一言、GLM等大模型。2022年以來在開源力量等因素的推動下,形成“百模大戰”的繁榮局面,但整體上的性能沒有超過GPT-4等國外模型。而在文本生成視頻方面,國內與Sora的差距更為明顯。
促進我國生成式人工智能發展的對策建議
在當前形勢下,我國應在算力能效結合、數據開放共享、模型垂直應用、生態綜合健全等方面統籌規劃,調動各方力量,實現全面發展。
第一,鼓勵計算架構多元創新,充分利用我國能源優勢,建設高能效智能算力網絡。在計算芯片方面,應探索發展更適合AI計算的架構,發展多樣化技術路線。雖然在短期內Nvidia的GPU系列仍將是AI計算的主要平臺,但其也存在設計上的不足,一些新、舊勢力正在打破其壟斷局面。例如美國初創公司Groq研發的LPU,專門面向大語言模型推理,速度獲得顯著提升,而老牌Intel最新研發的AI計算芯片Gaudi3,訓練性能達到Nvidia H100的1.7倍。我國也應激勵研發AI專用體系架構,充分利用RISC-V等開源架構,加快芯片制造技術升級,探索自主可控的計算生態體系。此外,應加快量子計算等新計算形式的研究。量子計算利用量子疊加和量子糾纏原理,其天然的并行處理能力遠高于目前的主流處理器。近年來量子計算實現技術快速發展,量子機器學習等領域已經展現出潛力。
在電力供給方面,隨著AI算力的不斷提升,對電力的需求也在急劇增長,電力已成為AI算力對決的關鍵因素。生成式人工智能技術的發展離不開算力的支撐,而算力的提升又離不開電力的供應。我國“百模大戰”或將帶動智算中心及其配套所需的相關電力、儲能基礎設施建設和投運速度的大幅提高。對此,除強化國家級超算中心之外,我國可著重從兩個方面應對能源算力不斷增長的挑戰。一是開展算力與能源的結合,參考比特幣“礦廠”模式,將算力中心部署在在四川、云南、內蒙古、新疆等電力充足地區,就近利用火電、水電、風能、太陽能,依托自主硬件設備,建設高效能算力中心,助力“東數西算”。二是通過分布式計算調動社會資源,進一步利用社會閑置算力,吸引公眾參與科學研究。
第二,建立聯邦數據基礎,鼓勵開放共享,促進數據提質增量。針對數據存量少、質量低、開放不足、共享機制不完善的問題,我國首要任務是建設智能聯邦生態系統,而聯邦數據是其中的當務之急。聯邦數據為數據安全和隱私問題提供有效解決方案,其運行機理遵循平行智能范式,能夠根據Morton定律和平行強化學習等方法探索實現數據最優化,為將大數據轉化為智能打下基礎。聯邦數據的架構包括六個組件,即真實數據/物理對象、虛擬數據/數字孿生、聯邦數據實驗、聯邦融合、聯邦安全和可信聯邦智慧。前兩個組件用于處理來自物理對象的真實數據和安裝在特定設備上的數字孿生生成的虛擬數據,以及其他方法生成的虛擬數據。聯邦數據實驗是探索最優模型的關鍵過程之一,通過在解決方案空間中搜索,例如,使用強化學習和并行強化學習找到本地模型的最優參數。聯邦融合組件負責將本地模型合成全局最優模型,通過使用專門設計的模型融合算法,如動態融合機制。聯邦安全組件負責實現數據安全和隱私。數據所有權和使用權是分開的,即對于特定節點,數據存儲在其本地地址,而這些數據訓練的模型被轉移到聯邦融合和聯邦數據實驗組件,類似于聯邦學習。此外,安全性還可以通過區塊鏈或其他加密方法進一步提高。從聯邦數據實驗和聯邦融合的結果中,可以獲得可信的聯邦智能。
第三,持續算法創新,打造專業大模型,開拓垂直領域應用新場景。在短期內我國AI算力受限、模型算法創新突破難度較大的背景下,應在持續鼓勵算法創新的同時,以彌補算力短板、促進產業升級、解決行業痛點為出發點,著力打造專業大模型,開拓垂直領域應用新場景。通過專注于垂直領域的專業大模型,可以更有效地利用現有算力資源,避免在通用AI模型上的重復資源浪費。專業大模型針對特定問題進行優化,能夠在有限的算力下實現更高的性能和效率。專業大模型能夠針對特定行業的需求提供定制化的智能解決方案,推動傳統產業的數字化和智能化轉型,從而提升整個產業鏈的技術水平和價值創造能力。例如,在醫療、金融、交通、教育等關鍵領域,專業大模型能夠解決行業痛點問題,如提高疾病診斷的準確性、優化金融服務的個性化推薦、緩解交通擁堵等,持續增進人民福祉。
第四,探索TAO(True DAO),發展智能聯邦生態,健全智能生態。如前所述,人工智能技術的創新和健康發展涉及到算力、算法、數據多個要素,需要政府、學術界、企業以及社會大眾的共同努力。因此,建立健全促進AI發展的生態體系十分關鍵。
一方面,充分利用區塊鏈、分布式自治組織(DAO),借助目前國際上開始流行的Web3和DeSci浪潮,推進我國AI領域全面發展。區塊鏈是一種分布式賬本技術,它通過加密和共識機制確保數據的不可篡改性和透明性。在AI領域,區塊鏈可以用于確保數據的安全性和隱私性,同時為AI模型提供高質量、可追溯的數據源。分布式自治組織(DAO)是一種基于區塊鏈技術的組織形式,它通過智能合約自動執行組織的規則和決策過程,可以為AI項目提供去中心化的管理和資金分配機制,與區塊鏈結合促進AI技術的開放協作和共同治理之TAO(True DAO)。Web3指的是構建在區塊鏈技術之上的下一代互聯網,它所強調的數據去中心化存儲、用戶隱私保護、數據所有權歸還給用戶等理念,為AI提供了一個更加開放、透明和安全的數據環境。以上技術應用的一個領域范例就是DeSci,利用區塊鏈和智能合約等技術,實現科學研究的去中心化、開放和共享。DeSci鼓勵跨學科合作,促進科學數據和研究成果的公開共享,也能夠為AI提供豐富的數據資源和創新動力。Web3、分布式自治組織(DAO)、區塊鏈和DeSci在發展人工智能中將共同推動技術進步、促進數據共享、增強系統安全性和推動去中心化治理,為AI的健康發展和廣泛應用提供堅實的基礎。
另一方面,應建立聯邦數據、聯邦控制、聯邦管理和聯邦服務為一體的聯邦生態,推動聯邦智能發展為智能系統聯邦。聯邦控制在聯邦生態中扮演核心角色,其主要目標是維護信息安全和保護數據的所有權、控制權、隱私權和使用權。作為一種分布式控制策略,聯邦控制為大型復雜系統提供高效、安全和可靠的管理和控制。聯邦管理是聯邦生態的關鍵組成部分,負責根據生態目標和要求制定管理決策,并根據系統狀態變化動態調整。通過聯邦管理,生態系統能夠達到最優狀態,實現目標,并在保障安全的前提下,實現智能化管理。聯邦管理的目的是通過對聯邦數據的聯邦控制來實現聯邦服務。在實現聯邦服務的過程中,不斷產生大量新的數據,這些數據可以添加到聯邦數據中,用于優化聯邦管理決策。
通過構建上述分布式和聯邦化相結合的生態系統,做到資源有效調配,激發創新活力,綜合維度促進AI全面健康發展。以DeSci為基礎,國際化的無人駕駛大模型MetaVista、食品大模型MeTaurant、運動大模型MetaSport、健康大模型MetaSEEH3O2,以及慧拓智能推出的礦山大模型愚公(YuKon)等正在快速發展,展現出新生態的活力。
生成式人工智能的發展趨勢與展望
生成式人工智能作為人工智能中發展最快的一個領域,傳統巨頭和創業公司的突破性產品在短時間內相繼推出,可謂日新月異。算法、模型、算力、應用的相互促進,形成飛輪效應,在未來一段時期為生成式人工智能的持續繁榮提供動力。總體而言,我國雖然面臨算力能源約束、數據質量不足等問題,但生成式人工智能的發展前景依然廣闊。
第一,大模型的規模效應(Scaling Law)仍有擴展潛力。雖然研究新算法以替代Transformer的呼聲日益高漲,但如Mamba等新架構尚在驗證和改進階段,未被廣泛接受和使用。基于Transformer 并結合MoE的架構在短期內仍將不斷擴展規模效益的邊界。
第二,多模態大模型是發力的重點。語言大模型能力相對完備,成為鏈接各個模態的橋梁,文生圖、文生視頻等將逐步完善,促進從語言智能向想象智能的范式轉換。
第三,行業大模型是重點方向。基于少數基礎大模型打造面向特定行業的專業模型是“AI+”行業賦能的有效方式,參數高效微調(PEFT)技術通過最小化微調參數數量和計算復雜度,能夠顯著降低訓練時間和成本。例如,LoRA、Prompt Tuning等技術能在計算資源有限的情況下,實現高效的遷移學習。
第四,生成式人工智能將進一步增加對算力與能源的需求。隨著大模型規模效應的進一步發展,以及文生圖、文生視頻等多模態應用需求的高速增長,算力緊缺將是未來一段時間的常態,特別是我國在芯片受限的情況下這一問題更加突出。同時,算力緊缺也將促進AI專用芯片的研發,面向底層算法加速的異構芯片將擠占Nvidia的市場,我國自主AI算力芯片也將快速成長。