今年的諾貝爾獎,從結(jié)果來看,既是預(yù)想之外,又在意料之中:人工智能(AI)成了其中的關(guān)鍵詞。
如果說諾貝爾物理學(xué)獎是物理學(xué)基礎(chǔ)研究對AI的賦能,那么化學(xué)獎則是AI賦能科學(xué)研究、給人類世界帶來改變的科技之光——如此一看,AI仿佛在今年的諾獎中“畫”了一個閉環(huán)。
對高校和科研機構(gòu)的學(xué)者們來說,今年的諾獎更像一個風(fēng)向標(biāo),預(yù)示著科學(xué)研究范式的變更,繼而開啟科學(xué)智能新紀(jì)元。
無論從AI還是從基礎(chǔ)科學(xué)的角度看,近日頒發(fā)的諾貝爾獎都引發(fā)了熱烈的思想激蕩。
10月8日,2024年諾貝爾物理學(xué)獎授予美國科學(xué)家約翰·霍普菲爾德(John Hopfield)和英國裔加拿大科學(xué)家杰弗里·欣頓(Geoffrey Hinton),以表彰他們在使用人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方面的奠基性發(fā)現(xiàn)和發(fā)明。次日的諾貝爾化學(xué)獎授予三位科學(xué)家。其中,來自華盛頓大學(xué)西 雅圖分 校的大衛(wèi)·貝克(David Baker)成功完成了構(gòu)建全新蛋白質(zhì)這一幾乎不可能完成的任務(wù);而來自谷歌DeepMind公司的德米斯·哈薩比斯(Demis Hassabis)和約翰·江珀(John Jumper)開發(fā)了一種名為AlphaFold2的人工智能模型,這種模型解決了一個已有50年歷史的難題:預(yù)測蛋白質(zhì)的復(fù)雜結(jié)構(gòu)。
2024年兩個諾獎的頒布,標(biāo)志著一個新時代的到來。AI與基礎(chǔ)科學(xué)的深度融合,將開啟AI+科學(xué)“雙螺旋引擎”共振驅(qū)動的科學(xué)研究新范式:一方面,AI在科學(xué)研究中逐步走向核心地位,成為科研突破的新引擎,AI for Science(科學(xué)智能)將極大加速和擴展科學(xué)研究的效率和能力邊界;另一方面,底層科學(xué)的第一性原理和知識將成為AI向AGI(通用人工智能)進(jìn)化的根本驅(qū)動和擴展引擎,下一個AI領(lǐng)域的里程碑很可能來自Science for AI的啟發(fā),而兩者作為“雙螺旋引擎”,將共振驅(qū)動并定義科學(xué)智能新范式“AI+科學(xué)”,帶領(lǐng)我們進(jìn)入科學(xué)發(fā)現(xiàn)涌現(xiàn)和人類文明躍遷的新紀(jì)元。
Physics for AI 是物理,也是人工智能
從學(xué)科劃分的角度看,機器學(xué)習(xí)與物理學(xué)邊界井然,物理學(xué)是研究真實世界的自然現(xiàn)象,而機器學(xué)習(xí)則屬于計算機科學(xué)、數(shù)據(jù)、代碼和算法的范疇。
不過,霍普菲爾德與欣頓的研究早已跨越了學(xué)科的邊界。
20世紀(jì)80年代,霍普菲爾德提出的“霍普菲爾德網(wǎng)絡(luò)”,借鑒了物理學(xué)中的自旋相互作用原理,用來模擬大腦中的記憶存儲與重構(gòu)。欣頓則通過引入玻爾茲曼分布的概念,發(fā)展出了玻爾茲曼機,這一模型為機器學(xué)習(xí)中的深度生成模型奠定了基礎(chǔ)。
從底層邏輯看,物理學(xué)的使命是研究從宇宙到粒子跨尺度復(fù)雜系統(tǒng)第一性原理。而從信息論角度看,機器學(xué)習(xí)的范疇也會落在物理學(xué)覆蓋的領(lǐng)域之內(nèi),基于能量的模型(Energy based model)可以將優(yōu)化問題和物理問題融合起來。
事實上,人工智能的很多關(guān)鍵算法都受到了物理學(xué)思維的啟發(fā)。
物理學(xué)家在研究自然界時,往往通過方程和數(shù)學(xué)模型來描述復(fù)雜系統(tǒng)的行為。這種通過變量間的關(guān)系來揭示規(guī)律的方式,與AI中的建模非常類似。比如在經(jīng)典物理學(xué)中,牛頓方程、熱力學(xué)等模型都是通過數(shù)據(jù)推導(dǎo)出來的,而AI模型同樣依賴大量數(shù)據(jù)和數(shù)學(xué)模型去學(xué)習(xí)、預(yù)測和優(yōu)化。
另外,人工智能常常要處理復(fù)雜的高維數(shù)據(jù),這與物理學(xué)家研究多體系統(tǒng)、混沌系統(tǒng)等復(fù)雜現(xiàn)象時的挑戰(zhàn)相似。比如,神經(jīng)網(wǎng)絡(luò)的復(fù)雜性和自適應(yīng)性與物理學(xué)中的自組織現(xiàn)象類似。在此基礎(chǔ)上,許多AI模型借鑒了物理學(xué)的思維方式,尤其在處理復(fù)雜系統(tǒng)時,將物理法則與AI結(jié)合以提高模型的解釋力和效率。
再舉一個例子。想象在水池中滴入一滴高溫水,隨著時間的推移,熱量向四周擴散,直到整個水池溫度趨于一致。這是物理學(xué)中的熱擴散過程,能量逐漸擴散并分布得更加均勻。AI的擴散模型(Diffusion model)則通過類似的過程進(jìn)行數(shù)據(jù)生成。它從噪聲開始,將數(shù)據(jù)逐步擴散為無序狀態(tài),類似一滴高溫水的熱量擴散過程。然后,模型通過逆向過程將無序狀態(tài)逐步還原為有序數(shù)據(jù),最終生成高質(zhì)量的樣本。這個“從無序到有序”的生成過程,完美模擬了熱擴散過程,即通過逐步降低熱量差異,使系統(tǒng)恢復(fù)到穩(wěn)定狀態(tài)。
在機器學(xué)習(xí)領(lǐng)域,很多學(xué)者早期都是物理學(xué)背景。麥克斯·韋靈(Max Welling)是機器學(xué)習(xí)領(lǐng)域的頂尖學(xué)者之一,專注于概率圖模型、深度學(xué)習(xí)和貝葉斯方法。他曾是一位理論物理學(xué)家,研究量子場論,并在物理學(xué)領(lǐng)域積累了豐富的數(shù)學(xué)和計算技巧。這些技巧后來被應(yīng)用到人工智能中,特別是在變分推斷(Variational inference)和深度生成模型的研究上,由此他提出了著名的VAE算法。
受益于我在麻省理工學(xué)院的導(dǎo)師湯米·雅科拉(Tommi Jaakkola,擁有理論物理學(xué)碩士和計算神經(jīng)科學(xué)博士學(xué)位,于1998年加入麻省理工學(xué)院電子工程與計算機科學(xué)系擔(dān)任教職),我在研究AI時也學(xué)習(xí)了統(tǒng)計物理學(xué)的知識。他和同在麻省理工的宇宙學(xué)家麥克斯·泰格馬克(Max Tegmark)都擁有物理學(xué)背景,他們合作開發(fā)的一種全新的受物理啟發(fā)的生成模型家族,統(tǒng)一了擴散模型和泊松流生成模型(PFGM)。這兩個模型都與物理學(xué)相關(guān),擴散模型與物理學(xué)熱擴散原理相似,泊松流生成模型則是受到高維電磁理論的啟發(fā)。
AI for Chemistry 科學(xué)突破的新引擎
再來看看今年摘獲諾貝爾化學(xué)獎的AlphaFold2。在2018年發(fā)布的Al phaFold基礎(chǔ)上,由DeepMind公司開發(fā)的這款人工智能程序在2020年的蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽(CASP)中取得了突破性進(jìn)展,以接近實驗水平的精度預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),該成就被認(rèn)為是人類在21世紀(jì)取得的最重要的科學(xué)突破之一。這一成果不僅推動了生命科學(xué)的發(fā)展,還加速了針對癌癥、病毒的抗生素、靶向藥物和新效率的蛋白酶的研發(fā)。
AlphaFold2的成功展示了AI在基礎(chǔ)科學(xué)研究上的巨大潛力。同獲諾獎的貝克的Rosetta軟件的開源性質(zhì),使得全球科研人員都能夠利用這一工具進(jìn)行研究。問鼎諾獎,其實早在科學(xué)家的意料之中。
AlphaFold2的核心是使用大量的蛋白質(zhì)序列數(shù)據(jù)訓(xùn)練出的一個深度學(xué)習(xí)模型,該模型能夠理解氨基酸序列與蛋白質(zhì)結(jié)構(gòu)之間的復(fù)雜關(guān)系。它首先搜索同源序列和模板,然后通過多序列比對和成對特征聯(lián)合嵌入來構(gòu)建蛋白質(zhì)結(jié)構(gòu)的預(yù)測。AlphaFold2采用了一種新的輸出表示和相關(guān)損失函數(shù),實現(xiàn)了精確的端到端結(jié)構(gòu)預(yù)測。此外,它還使用了一種新的等變注意體系結(jié)構(gòu),通過中間損失實現(xiàn)預(yù)測的迭代細(xì)化,并與結(jié)構(gòu)聯(lián)合訓(xùn)練。
盡管AlphaFold2取得了巨大成功,但它仍然存在預(yù)測方面的局限性。今年5月問世的AlphaFold3結(jié)合了圖神經(jīng)網(wǎng)絡(luò)和變分推斷方法,并引入了多種生物物理學(xué)知識,形成了強大的結(jié)構(gòu)預(yù)測統(tǒng)一框架,涵蓋了前所未有的廣度和精確度。AlphaFold系列實證了AI作為科學(xué)發(fā)現(xiàn)新引擎的強大力量。
Science for AI和AI for Science 定義一個全新的科學(xué)研究范式
在AI與科學(xué)研究的交匯點上,“Science for AI”和“AI for Science”構(gòu)成了驅(qū)動科學(xué)進(jìn)步的“雙螺旋引擎”。這兩個概念不僅代表了科學(xué)與技術(shù)之間的相互作用,也定義了一個全新的科學(xué)研究范式。
Science for AI指的是利用物理學(xué)等基礎(chǔ)科學(xué)的原理和方法來啟發(fā)和改進(jìn)AI技術(shù)。
如前文所述,物理學(xué)中的熱擴散原理啟發(fā)了AI中的Diffusion model。在機器學(xué)習(xí)領(lǐng)域,很多關(guān)鍵算法都受到了物理學(xué)思維的啟發(fā),比如利用能量函數(shù)、玻爾茲曼分布等概念來構(gòu)建模型。此外,符號計算也是Science for AI的一個重要方面,它涉及到使用計算機代數(shù)系統(tǒng)來執(zhí)行數(shù)學(xué)符號的計算和推理。
AI for Science則是將人工智能技術(shù)應(yīng)用于科學(xué)研究,以解決科學(xué)問題,包括引導(dǎo)科學(xué)假設(shè)的生成,自動實驗和驗證,并推進(jìn)科學(xué)發(fā)現(xiàn)。
總之,無論是數(shù)字世界還是物理世界,要實現(xiàn)發(fā)現(xiàn)復(fù)雜世界的未知規(guī)律這一科學(xué)終極目標(biāo),需要Science for AI和AI for Science的“雙螺旋驅(qū)動”,就類似DNA和RNA的雙螺旋結(jié)構(gòu)。
在Science for AI和AI for Science的共振中,數(shù)據(jù)驅(qū)動和第一性原理的融合是關(guān)鍵。深度學(xué)習(xí)是數(shù)據(jù)的擬合,第一性原理和知識則可以外插到缺少或者沒有數(shù)據(jù)的地方,體現(xiàn)更好的擴展性。
當(dāng)規(guī)則、知識和關(guān)鍵數(shù)據(jù)矛盾,可以調(diào)整知識規(guī)則,就像愛因斯坦把有限的物理數(shù)據(jù)、他自己頭腦實驗的合成數(shù)據(jù)(比如坐著光會看到什么樣的宇宙)和黎曼幾何結(jié)合起來,把牛頓力學(xué)擴展到了刻畫宏觀宇宙的相對論。在這個意義上,打造AI愛因斯坦是科學(xué)智能(AI+Science)的終極目標(biāo),也是AGI的終極目標(biāo)——發(fā)現(xiàn)未知規(guī)律,推動科學(xué)和人類的進(jìn)步。在這個激動人心的科學(xué)探索和創(chuàng)造未來的旅程中,讓我們一起同行。
文:漆遠(yuǎn)(復(fù)旦大學(xué)浩清教授、上??茖W(xué)智能研究院院長)
圖:視覺中國