大模型,作為人工智能領域的革新先鋒,正引領著一場深刻的技術變革,其影響力已超越技術范疇,預示著人工智能、科學探索乃至人類社會的全面重塑。在全球科技競賽中,大模型成為各國爭奪焦點,戰略地位堪比20世紀的太空競賽,開啟大國科技新角逐。因此,深入了解大模型的各個方面變得尤為重要。
大模型的誕生、發展與應用
大模型,是一類基于深度學習架構、在海量數據上訓練、能夠處理多種任務的基礎模型。與傳統AI模型相比,其顯著特征在于參數量大、數據量大、計算量大,是多重技術交叉融合的產物。其前身是歷經數十年研究的語言模型,廣泛應用于機器翻譯、語音識別等領域。隨著神經網絡的再次興起,2000年神經語言模型誕生,隨后2017年神經網絡架構Transformer橫空出世,融合了神經語言模型、機器翻譯、序列建模及分布式技術。這一系列創新及對AI通用和泛化能力的追求推動了GPT系列的快速發展,從2018年至2020年,GPT一至三代相繼問世。2022年,ChatGPT憑借其卓越性能,將大模型推向公眾視野,成為AI發展的新里程碑。
大模型作為新興而迅速發展的技術,已跨越至多模態領域,涵蓋語言、語音、視覺等,并細化為通用、行業及任務特定模型,其在信息交互上的創新尤為顯著,引入了長上下文窗口(大模型能夠編碼的最長序列)、檢索增強及智能體等機制,極大增強了信息處理能力。這一技術不僅豐富了數字世界的應用場景,如聊天機器人、AIGC等,還延伸至無人駕駛、人形機器人等物理世界領域,展現出強大的賦能潛力。在科學研究中,大模型不僅輔助工程設計、技術創新等應用科學,更推動基礎科學探索,加速了自動化、智能驅動的科學研究新范式的形成。可以說,大模型既支撐了高端科學研究,也助力了傳統產業的轉型升級與降本增效。《2023企業數字化年度指南》調研數據顯示,超過63%的企業視大模型與AIGC技術為戰略資源,首要目的在于降本增效,廣泛應用于研發創新、辦公效率提升、客戶服務、市場營銷等多個領域。同時,大模型在工業設計、芯片設計、人形機器人等多個行業的應用案例也充分證明了其廣闊的應用前景與市場潛力,正逐步成為推動社會進步與產業升級的重要力量。
大模型背后的關鍵技術
是什么造就了大模型如此強大的能力?從大模型的發展實踐看,其背后有三項關鍵技術。
一是大模型底層的神經網絡架構Transformer。Transformer最初提出主要是為了解決序列建模中的循序計算問題,即只有前面的詞元(自然語言處理中的最小語義單位)計算后才能計算后面的詞元。循序計算極大束縛了模型的并行計算能力,使得語言模型、機器翻譯等序列模型難以大規模擴展。Transformer架構巧妙地利用了自注意力機制,不僅大幅度提升了模型的并行計算能力,而且顯著提升了模型的長距離依存關系建模能力(語言模型的關鍵挑戰)。并行計算能力使Transformer可以在大規模數據上進行快速訓練,而長距離依存建模能力極大強化了Transformer對語言等序列數據內部復雜依存關系的學習和表征能力。兩項能力的疊加,使Transformer開啟了“后臨詞元預測”范式模擬人類智能的大門。
二是基于自監督學習的預訓練技術及擴展法則。Transformer雖然具有強大的并行計算和表征能力,但要使其學習和模擬人類智能還需要解決兩個重要問題:如何將人類多樣化的智能統一表征,如何訓練模型使其高效學習人類智能。針對第一個問題,GPT將各類任務統一表示為生成式問題,無論是寫作、翻譯、問答等典型生成式問題,還是推理、規劃、問題求解等非典型生成式任務,都歸聚到生成式AI的統一框架中,在這個統一框架中,基于后臨詞元預測的語言模型成為天然的技術路線。統一表征不僅使AI不需要為不同任務設計不同的模型(傳統弱人工智能模式),而且還極大提升了AI模型在不同任務間的遷移能力、泛化能力。對于第二個問題,語言模型的后臨詞元預測模式使自監督學習成為模型訓練的首選,在可大規模獲取的人類語言數據上,后臨詞元本身就存在,因此模型可以充當自己的“教師”,采用“教師強制”方式進行自監督訓練。區別于傳統人工智能有限的有監督數據,自監督數據規模龐大且易于獲取。這不僅使模型可以學習豐富的人類知識,同時也要求模型的容量(參數量)足夠大。在給定算力規模前提下,如何選擇模型的參數規模及訓練數據規模,使模型能訓練到最優性能?業界經過反復實踐,總結出了擴展法則,用以指導模型與數據規模的協同擴展。
三是后訓練階段的精調和對齊技術。經過預訓練的大模型,如同學習了大量知識和百般武藝的“學生”,但不知該如何運用。為了解鎖預訓練模型的知識和能力,通常需要進行后訓練,即采用少量的有監督數據對預訓練模型進行精調,使其能夠理解人類的意圖,遵循人類的指令,對齊人類的價值觀。業內目前廣泛采用的后訓練,通常包括兩個主要部分:有監督精調(模仿學習人類給出的示范樣例)及人類反饋強化學習(基于人類反饋的偏好數據進行強化學習)。后訓練的成本通常遠小于預訓練成本,同時,后訓練也是解鎖模型能力、保障模型智能向善的關鍵階段,因此,業界對后訓練寄予厚望。
大模型的突破點與創新方向
模型架構、預訓練與后訓練,既是大模型的關鍵所在,也是未來重點突破的方向。Transformer架構雖潛力強大,但其是否為最優的智能學習架構尚待驗證,能否承載全部的智能學習任務亦存爭議。預訓練領域,高昂成本促使我們尋求更高效的數據學習方法,同時,模型規模與性能間的最優平衡,以及模型、數據與計算三者間的理論關系,亦需深入探索。后訓練領域,是否存在新的方法,偏好數據是否真能代表人類意圖和價值傾向,預訓練+后訓練是訓練現有架構的最優模式嗎?這些都是值得思考和亟待突破的地方。
除此之外,還有四個重要研究方向有待深入探索(與以上三個方向存在一定的交叉),其突破可能關系到大模型能否躍遷到人工智能的新階段。一是類人推理能力。大模型的推理能力有待進一步加強,復雜問題的類人推理能力是大模型現階段最期待的突破方向之一。二是AI合成數據能力與模型的自我迭代能力。隨著模型規模的不斷擴大,人類數據可能很快被大模型用盡,AI合成的數據,成本既低廉,又可源源不斷生成。但如何生成高質量數據,使大模型能夠自我學習、自我迭代,甚至實現弱模型合成數據監督(訓練)強模型,將是大模型未來突破數據限制的重要方向。三是自我發現和創新能力。人類不僅能夠學習已有知識,也可以創造新的知識,未來要實現完全自動化科學研究,大模型需要具備創造新知識的能力。四是可擴展的監督。在復雜任務上、人類難以提供監督數據的任務上(如未解的科學難題),大模型仍需要與人類目標和價值對齊,這就要求監督是可擴展的。該能力是前沿人工智能實現智能向善、安全治理的關鍵技術。
我國大模型技術的進展情況與發展路徑
盡管我國在大模型技術方面初期存在一定滯后,但近一年來發展迅速,不僅在研究領域取得了顯著成果,還在產業應用上展現出了強勁實力。國內相繼開源了通義千問等大模型系列,這些成果在國際大模型開源領域中僅次于美國,形成了廣泛的影響力。在產業應用層面,我國多個大模型的中文能力已經超越GPT-3.5,它們在數字人、人形機器人等前沿領域,以及能源、交通、醫療、政務、農業、金融等多個傳統及新興行業中,都實現了豐富的落地應用,推動了各行各業的智能化發展。
為鞏固并提升我國在這一領域的國際競爭力,可以從以下布局和規劃著手。第一,進一步提升以大模型為代表的前沿人工智能在國家科技和產業發展中的戰略地位,成立人工智能工作小組,領導AI產研咨詢委員會,統籌資源,制定AI政策和計劃,推進人工智能技術創新和產業發展。第二,重點規劃和建設前沿人工智能相關的國家基礎設施,包括超級智算網絡、通用及行業數據基礎設施、大規模人工智能軟件基礎平臺、人工智能安全與測評基礎設施、大模型開源平臺等。第三,開展大模型關鍵理論和技術攻關,啃硬骨頭,探新疆域,研發經得起實踐考驗的硬核技術。第四,培育和建立大模型創新發展生態,形成大模型技術創新氛圍,鼓勵耐心資本敢投廣投大模型硬核技術創業企業。第五,重視人工智能人才培養和成長,培養一批具有長遠眼光和實戰經驗的AI戰略型人才、技術型人才、交叉復合型人才等。第六,重視人工智能安全治理,既要設計頂層治理策略,更要推動底層安全技術的創新突破。第七,積極開展國際合作,建立新型人工智能國際組織和機構,吸收新理念,合研新技術,與發展中國家共享AI紅利。第八,推動前沿人工智能行業、國家、國際標準建設,形成標準體系,以標準建設護航人工智能產業發展。