在人工智能的宏偉藍(lán)圖中,AI系統(tǒng)的設(shè)計目標(biāo)是構(gòu)建一個強(qiáng)大、靈活且高效的框架,以支撐深度學(xué)習(xí)的復(fù)雜需求和挑戰(zhàn)。這不僅是技術(shù)的進(jìn)步,更是對未來智能世界的一次大膽設(shè)想。讓我們揭開AI系統(tǒng)設(shè)計目標(biāo)的神秘面紗,探索它們?nèi)绾嗡茉煳覀兊臄?shù)字未來。
深度學(xué)習(xí)系統(tǒng)的設(shè)計目標(biāo)可以總結(jié)為以下幾個部分。
設(shè)計更具表達(dá)能力和簡潔的神經(jīng)網(wǎng)絡(luò)計算原語以及高級編程語言。讓用戶能夠提升 AI 應(yīng)用程序的開發(fā)效率,屏蔽底層硬件計算的細(xì)節(jié),更靈活的原語支持。當(dāng)前神經(jīng)網(wǎng)絡(luò)模型除了特定領(lǐng)域模型的算子和流程可以復(fù)用(如大語言模型 Transformer 架構(gòu)在自然語言處理 NLP 領(lǐng)域被廣泛作為基礎(chǔ)結(jié)構(gòu)),其新結(jié)構(gòu)新算子的設(shè)計與開發(fā)仍遵循試錯(Trial And Error)的方式進(jìn)行。那么如何靈活表達(dá)新的計算算子,算子間的組合以及融合形式,屏蔽經(jīng)典熟知的算子與基礎(chǔ)模型,是算法工程師所需要語言、庫與 AI 開發(fā)框架層所提供的功能支持。
更直觀的編輯、調(diào)試和實驗工具。讓用戶可以完整的進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的開發(fā)、測試、調(diào)整診斷與修復(fù)和優(yōu)化程序,提升所開發(fā) AI 應(yīng)用程序的性能與魯棒性。訓(xùn)練過程不是一蹴而就,其中伴隨著損失函數(shù) LOSS 曲線不收斂、Loss 值出現(xiàn) NaN 無效值、內(nèi)存溢出等算法問題與算法設(shè)計缺陷(Bug)。AI 工具鏈與 AI 系統(tǒng)本身如何在設(shè)計之初就考慮到這點,提供良好的可觀測性、可調(diào)試性、允許用戶注冊自定義擴(kuò)展等支持,是需要工具鏈與 AI 系統(tǒng)的設(shè)計者,所需要在 AI 系統(tǒng)的設(shè)計之初就需要提上日程的,否則之后更多是縫縫補(bǔ)補(bǔ)造成不好的開發(fā)體驗與不能滿足的需求,對用戶來說就像使用一個黑盒且單片的工具。
支持 AI 生命周期中的各個環(huán)節(jié):數(shù)據(jù)處理、模型開發(fā)與訓(xùn)練、模型壓縮與推理、安全和隱私保護(hù)等。不僅能構(gòu)建 AI 模型,能夠支持全生命周期的 AI 程序開發(fā),并在 AI 系統(tǒng)內(nèi)對全生命周期進(jìn)行分析與優(yōu)化。當(dāng)前的 AI 工程化場景,已經(jīng)不是靈感一現(xiàn)和單一的優(yōu)化就能迅速取得領(lǐng)先優(yōu)勢,更多的是能否有完善的 AI 基礎(chǔ)設(shè)施,快速復(fù)現(xiàn)開源社區(qū)工作,批量驗證新的想法進(jìn)行試錯,所以一套好的完善的全流程的生命周期管理能夠大幅度提升 AI 算法層面的生產(chǎn)力。
除了對深度學(xué)習(xí)訓(xùn)練與推理的支持,還能支持強(qiáng)化學(xué)習(xí)、自動化機(jī)器學(xué)習(xí)等新的訓(xùn)練范式。例如,需要不斷和環(huán)境或模擬器交互以獲取新數(shù)據(jù)的強(qiáng)化學(xué)習(xí)方式,批量大規(guī)模提交搜索空間的自動化機(jī)器學(xué)習(xí)方式等,這些新的范式造成對之前單一支持單模型之外,在多模型層面,訓(xùn)練與推理任務(wù)層面產(chǎn)生了新的系統(tǒng)抽象與資源,作業(yè)管理需求。
提供更強(qiáng)大和可擴(kuò)展的計算能力
讓用戶的 AI 程序可擴(kuò)展并部署于可以并行計算的節(jié)點或者集群,應(yīng)對大數(shù)據(jù)和大模型的挑戰(zhàn)。因為當(dāng)前 AI 模型不斷通過大模型,多模態(tài)大模型以產(chǎn)生更好的算法效果,促使 AI 系統(tǒng)需要支持更大的模型、更多模態(tài)的輸入。同時由于企業(yè) IT 基礎(chǔ)設(shè)施不斷完善,能夠不斷沉淀新的數(shù)據(jù),也會伴隨著大數(shù)據(jù)而衍生的問題。大模型與大數(shù)據(jù)促使存儲與計算層面的系統(tǒng),在摩爾定律失效的大背景下,迫切需要通過并行與分布式計算的方式,擴(kuò)展算力與存儲的支持。
自動編譯優(yōu)化算法
1)對計算圖自動推導(dǎo):盡可能的通過符號執(zhí)行或即時編譯 JIT 技術(shù),獲取更多的計算圖信息,讓 AI 開發(fā)框架或者 AI 編譯器自動執(zhí)行定制化的計算優(yōu)化。
2)根據(jù)不同體系結(jié)構(gòu)自動并行化:面對部署場景的多樣化體系結(jié)構(gòu),訓(xùn)練階段異構(gòu)硬件的趨勢,AI 開發(fā)框架讓用戶透明的進(jìn)行任務(wù)配置和并行化,以期以最為優(yōu)化的方式在 AI 集群配置下,并行化、減少 I/O、充分利用通信帶寬,逼近硬件提供的極限性能上限。
云原生自動分布式化
自動分布式并行擴(kuò)展到多個計算節(jié)點,面對云與集群場景,自動將 AI 任務(wù)擴(kuò)展與部署,進(jìn)而支撐分布式計算、彈性計算,讓用戶按需使用資源,也是云原生背景下,AI 系統(tǒng)所需要考慮和支持的。
在 AI 系統(tǒng)中會隨著 AI 算法的發(fā)展,出現(xiàn)了對動態(tài)圖、動態(tài) Shape 的支持需求,利用網(wǎng)絡(luò)模型結(jié)構(gòu)的稀疏性進(jìn)行壓縮加速優(yōu)化,為了提升訓(xùn)練指標(biāo) TTA 實現(xiàn)混合精度訓(xùn)練與部署,還有混合訓(xùn)練范式(如強(qiáng)化學(xué)習(xí))、多任務(wù)(如自動化機(jī)器學(xué)習(xí))等特性支持。
提供在更大規(guī)模的企業(yè)級環(huán)境的部署需求。如云環(huán)境多租環(huán)境的訓(xùn)練部署需求:面對多組織,多研究員和工程師共享集群資源,以及大家迫切使用 GPU 資源的日益增長的需求,如何提供公平、穩(wěn)定、高效的多租環(huán)境也是平臺系統(tǒng)需要首先考慮的。
跨平臺的推理部署需求。面對割裂的邊緣側(cè)硬件與軟件棧,如何讓模型訓(xùn)練一次,跨平臺部署到不同軟硬件平臺,也是推理場景需要解決的重要問題。
最后是安全與隱私的需求。由于網(wǎng)絡(luò)模型類似傳統(tǒng)程序的功能,接受輸入,處理后產(chǎn)生輸出,但是相比傳統(tǒng)程序,其解釋性差,造成更容易產(chǎn)生安全問題,容易被攻擊。同時模型本身的重要信息為權(quán)重,我們也要注意模型本身的隱私保護(hù)。同時如果是企業(yè)級環(huán)境或公有云環(huán)境,會有更高的安全和隱私保護(hù)要求。
了解完 AI 系統(tǒng)設(shè)計的宏觀目標(biāo),可以進(jìn)一步了解,當(dāng)前在人工智能的大生態(tài)環(huán)境中 AI 系統(tǒng)的技術(shù)棧是如何構(gòu)成的,整個技術(shù)棧中 AI 系統(tǒng)的各=處于哪個抽象層次,互相之間的關(guān)系是什么。
AI系統(tǒng)的設(shè)計目標(biāo)不僅是技術(shù)規(guī)格的集合,它們是通往智能時代的關(guān)鍵路徑。隨著這些目標(biāo)的實現(xiàn),我們將能夠解鎖新的創(chuàng)新潛力,提高生產(chǎn)效率,并保護(hù)我們的數(shù)據(jù)安全。這是一個充滿挑戰(zhàn)的旅程,但也是一次充滿希望的探險。讓我們期待AI系統(tǒng)如何繼續(xù)推動技術(shù)的邊界,為我們的世界帶來更加智能和互聯(lián)的未來。
本文由 @章魚AI小丸子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)