商湯為什么要建 AI 計算中心

摘要

如何持續做技術產業化和商業化?這是屬于商湯的「過程性資產」。

作者 | 凌梓郡

雖然「通用人工智能」到來尚遠,但 AI 為各行業提供顛覆性「工具」的能力已經毋庸置疑。提供「工具」的前提是基礎設施。

以 2021 年最引人矚目的科學突破 AlphaFold2 為例,AI 用「暴力計算」的方式,準確預測了蛋白質的三維結構,解決了困擾結構生物學家 50 多年的難題。在這項突破背后,離不開谷歌提供的算力資源:128 塊 TPU V3(大約相當于 100-200 個 GPU),運行了數周。

1 月 24 日,落座在上海臨港新片區的「商湯科技人工智能計算中心」(AIDC)正式啟動運營。其建筑面積 13 萬平方米、項目總投資約 56 億元、一期機柜數量 5000 個。設計算力為每秒 3740 Petaflops(1 Petaflops 為每秒千萬億次浮點運算)。與之相比,目前國內已知最大的人工智能的算力中心是鵬城實驗室的鵬城云腦 II,輸出 1000 Petaflops 算力。

作為亞洲最大的 AI 軟件平臺公司,商湯科技很早就開始思考「基礎設施」。對于商湯來說,面對的是復雜多樣的場景,要源源不斷提供各種算法,對基礎設施的思考自然更為全面:它不僅僅是一個數據中心,高性能計算平臺,也是為更多行業提供 AI 服務的物理基礎。

算力僅僅是一個指標的維度。更大的算力,意味著能夠處理更大量的數據。但是更關鍵在于「怎么能讓這么大量的數據,進入到同一個算法網絡中?!?/strong>商湯科技聯合創始人、副總裁楊帆解釋說。


01 通用的 AI 基礎設施

商湯對 AI 基礎設施的探索從 2018 年就開始了。

2018 年,商湯進行了原型機的預研項目,將 1000 塊 GPU 卡連在同一個網絡上,加載數據,并進行運算。在同一個網絡上運行的難點在于,存儲、計算、內部網絡傳輸,這幾個子系統之間需要形成緊密的耦合關系。

那時,商湯在沒有任何可供參照的案例經驗和實驗場地條件下,進行項目預研。到了 2020 年 3 月,AIDC 立項啟動,7 月在上海臨港新片區正式啟動建設。僅僅用了 168 天,就完成了從開工建設到結頂的過程,刷新了臨港建設的新紀錄。楊帆表示,「我自己作為一個程序員出身的軟件公司的負責人,頭一次去干土建項目,真的是感慨萬千?!?/strong>

目前,商湯的業務主要分為智慧商業、智慧城市、智慧生活,以及智能汽車四個板塊。在這個四個板塊之下的「底座」,就是「SenseCore 商湯 AI 大裝置」。而 AIDC 則是「底座的底座」。

SenseCore 商湯 AI 大裝置是軟硬一體的超大型通用 AI 基礎設施。AIDC 是 AI 大裝置的物理承載。在這個物理基礎上,運行著深度學習平臺、以及超過 22000 個商用模型形成的模型層。

AIDC 的能力體現在「算力真正可以被連接在一個大的網絡里,去做共同訓練」。

技術亮點上,AIDC 擁有「大規模數據處理及高性能計算能力」。分布式的任務調度系統,可以在成千上萬個 GPU 上動態調度數以萬計的計算任務。與之匹配,數據的輸入/輸出(IO)也會面臨巨大壓力。存儲和 IO 系統必須要支持數據的快速隨機訪問。商湯 AIDC 允許訓練任務每秒加載超過兩百萬張圖片,保證訓練任務可以全速運行,不必等待數據。

數據是重要的生產資料,基礎設施搭建的是一套系統。系統搭建得好,就能讓系統內的數據發揮更大價值。

有了 AIDC 作為底層支撐,商湯提供服務的模式也隨之優化。在過去,商湯以售賣軟件的形式向客戶服務。而有了 AIDC 之后,服務模式將更加接近云計算,直接提供端到端的服務。在使用過程中,像系統升級、迭代算法更新,可以在后臺自動化實現。

「商湯科技人工智能計算中心」(AIDC)


02 用大模型,降低創新成本

作為 AI 領域的頭部企業,商湯一路走來歷時 7 年多。楊帆表示,AI 產業經歷了五、六年發展,新的趨勢是產業鏈的分化。當 AI 進入不同的場景落地,經過了初期,面對更多分化的場景、中深度的需求?!竸撔碌某杀靖摺?,成為了新階段遇到的問題。其它行業期待以更低的成本獲得匹配的算法,以解決問題。

從這個角度理解,AIDC 便是商湯在新階段,降低創新成本,提高服務能力的「解法」:解決對多任務、多長尾場景覆蓋的核心瓶頸問題。

比如,在傳統的工業生產線上,客戶希望 AI 算法能夠檢測鋼鐵的焊縫是不是符合標準。這個行業本來沒有與之匹配的智能軟件和平臺,應用的矛盾就在于,以盡可能小的預算去解決這個問題。這樣才是真正實現了降本增效。如果「一個算法本身要花幾十萬、上百萬,算法確實有用,但是太貴了?!?/p>

如今,面對這樣的需求時,商湯「通過 AIDC 的支撐和加持,能夠讓算法的生產成本下降到過去的 1/10?!?/p>

要實現成本下降,就要充分利用大模型帶來的優勢。AIDC 支持萬億參數大模型訓練,可以衍生出超過 2 萬多個商用模型,幫助產業界以極低的下游數據采集成本,快速驗證多個新場景。

AI 行業里近年來出現了「大模型」的趨勢?!赣妙A訓練大模型,去指導小模型的訓練,實現跨場景應用方向?!箺罘榻B,AIDC 能夠更好地支持大模型,再用大模型指導長尾模型的自動化生產、自動化訓練,從而能夠提高效率,降低成本。

大模型如何幫助實現長尾的細分場景呢?例如,有地方提出需求,希望算法能夠檢測到有人落水,然后發出通知,相關人員接到通知后第一時間前往救助。

解決這個長尾場景的難點在于,落水的視頻素材本身就不多,樣本數據就不多。那么采用大模型的思路,不是單獨訓練識別落水素材的算法,而是先用各種人類行為的視頻素材作為數據。在更廣泛的范圍收集大量數據,訓練出大模型。再用這個模型作為「老師」,訓練出一個只會識別落水行為的「學生」。這樣,只需要較少的樣本數量,就能夠得到比較好的識別結果。

使用大模型作為支撐的好處在于:遇到頻率低,不常見的應用需求時,基于少量的專有數據,使用小樣本達到結果。


03 助力國產芯片產業化

預計到 2024 年,所有服務器全部到位時,AIDC 國產化的硬件比例將超過 50%。

人工智能是軟件硬件一體化的產業進程,芯片廠商也需要擁有解決軟件適配問題的能力。而商湯搭建的 AI 基礎設施的綜合角色,可以使其在硬件、軟件、應用的產業鏈上起到重要的溝通的作用。

作為 AI 基礎通用設施,本身就包含了硬件層、平臺層以及軟件系統,同時連接著下游應用廠商。商湯與硬件、芯片廠商做適配,拉通應用側需求的同時,也幫助節約其研發費用和時間成本。「整體上,加速了他們的市場化進程,幫助降低整體成本?!?/strong>楊帆說。

除了促進國產芯片的市場化進行,商湯也正在探索從芯片、服務器、訓練框架、算法到行業落地的 AI 生態。

2021 世界人工智能大會上,商湯與中國電子技術標準化研究院、中國信息通信研究院、清華大學、復旦大學、上海交通大學及多個行業伙伴共同成立了「人工智能算力產業生態聯盟」。整個生態的探索分為前、中、后期。

楊帆介紹,在前期,配合芯片設計和流片的節奏,商湯定期組織深度閉門研討會,讓來自硬件設計、軟件設計、計算等不同領域的專家共同交流,「希望盡可能在最開始,通過討論交流,對于軟硬件的邊界,形成一個足夠標準、通用的接口層的定義?!鼓康氖窃谥蟮能浖陀布袦p少無用功,降低成本。

在中期,在國產芯片適配完成,投入 AIDC 運營之后,商湯將扮演評估的角色,與中國電子技術標準化研究院(工業和信息化部電子第四研究院)建立「CESI-SenseTime 人工智能算力及芯片評測聯合實驗室」。實驗室開展人工智能算力和芯片標準制定、人工智能芯片測評工具開發,提供人工智能計算中心、芯片測試驗證服務和人才培訓等支持?!高@個實驗室未來將成為一個測評機構,對每一款國產芯片的 AI 服務器,我們會提供一個相對中立的、第三方的,更加權威的評估評測?!?/p>

在長期看來,商湯也會把盡可能把優質的 AI 芯片及其服務器,導入整合到自己的解決方案,以及合作伙伴的解決方案中。

從技術創新的原點出發,到最終成為客戶價值,中間包括了許多環節。從一個研究前沿算法的團隊起家到亞洲最大的 AI 軟件公司,歷經七年,商湯積累了許多經驗。

如何在技術持續創新、高速迭代的環境下,持續做技術產業化和商業化?楊帆總結,「在推動創新產業化這件事上,我們內部有大量的積累和沉淀」,這是屬于商湯的「過程性資產」。當將技術創新到產生客戶價值的周期不斷縮短,甚至短至三四個月,「我覺得這是商湯今天某種意義上,對行業或產業而言,更大的一個核心競爭力所在?!?/strong>


*頭圖來源:商湯科技

本文為極客公園原創文章,轉載請聯系極客君微信 geekparker

最新文章

極客公園

用極客視角,追蹤你不可錯過的科技圈。

極客之選

新鮮、有趣的硬件產品,第一時間為你呈現。

頂樓

關注前沿科技,發表具有科技的商業洞見。

国产午夜精品久久精品电影