霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

量子位

+ 關注

2022-04-07 10:39

1039次閱讀

大規(guī)模并行AI訓練系統(tǒng)Colossal-AI，旨在作為深度學習框架的內核，幫助用戶便捷實現(xiàn)最大化提升AI部署效率，同時最小化部署成本。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

開源地址：https://github.com/hpcaitech/ColossalAI

Colossal-AI一經開源便受到廣泛關注，連續(xù)多日登頂GitHub熱榜Python方向世界第一，與眾多已有數(shù)萬star的明星開源項目一起受到海內外關注！

經過開發(fā)者們的不斷努力，Colossal-AI在數(shù)月的密集測試后迎來正式版！此版本由300多次commits組成。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

本次正式版更新重點優(yōu)化了分布式訓練性能及開發(fā)者的易用性，主要亮點包括：

重構ZeRO以改善性能和易用性；
添加細粒度Profiler TensorBoard監(jiān)控插件，監(jiān)測訓練過程中內存、網絡等狀態(tài)；
更靈活的checkpoint策略，可擴展的pipeline模塊；
開源蛋白質預測FastFold等豐富行業(yè)解決方案；
添加中文教程，MOE、BERT等實例，開放用戶社群及論壇。

專業(yè)助力大模型訓練

近年來，隨著深度學習的興起及大模型橫掃各大性能榜單，前沿AI模型的大小在短短幾年內便已增大萬倍，遠超硬件數(shù)倍的緩慢增長。前沿AI大模型不僅遠超單個GPU的容納能力，所需算力也往往需要單個GPU運行數(shù)百甚至上千年。

因此，如何提升單個GPU的容納能力，如何高效利用分布式技術，聯(lián)合多個GPU低成本實現(xiàn)并行訓練加速已成為AI大模型的關鍵痛點。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

針對現(xiàn)有方案并行維度有限、效率不高、通用性差、部署困難、缺乏維護等痛點，Colossal-AI通過高效多維并行、顯存優(yōu)化、大規(guī)模優(yōu)化庫、細粒度監(jiān)測等方式，讓用戶僅需極少量修改，即可高效快速部署AI大模型訓練。

多維并行

相比現(xiàn)有方案中并行維度僅包括數(shù)據并行、一維張量并行、流水并行三種方案，Colossal-AI進一步提供2/2.5/3維張量并行和序列并行，以及便捷的多維混合并行解決方案。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

△ViT張量并行為64時，可提升14倍批大小和5倍訓練速度

其中，高維張量并行能極大減輕顯存消耗，提升通信效率，使得計算資源利用更加高效。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

△序列并行幫助BERT提升2倍訓練速度，或1.5倍序列長度

而序列并行針對大圖片、視頻、長文本、長時間醫(yī)療監(jiān)測等數(shù)據，可以幫助突破原有機器能力限制，直接處理長序列數(shù)據。

顯存優(yōu)化

Colossal-AI綜合了多重顯存優(yōu)化技術，包含多維并行，ZeRO冗余內存消除，CPU offload，Gradient Checkpoint，自動混合精度（AMP）等前沿技術，最大限度幫助用戶避免顯存瓶頸，降低訓練的硬件需求。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

△GPT-2使用Colossal-AI，同樣硬件下提升24倍可訓練模型大小，或3倍訓練速度

靈活易用

Colossal-AI接口設計與PyTorch風格保持一致，降低學習和使用成本，僅需極少量修改，便可將已有項目與Colossal-AI結合，便捷擴展至大規(guī)模并行。此外，該系統(tǒng)還保持了優(yōu)秀的擴展性，便于根據需求添加新功能，與已有功能模塊兼容。

細粒度監(jiān)測：細粒度Profiler TensorBoard插件，相較于PyTorch僅能以iteration為單位進行記錄訓練過程，Colossal-AI能夠監(jiān)測iteration內的網絡、通信、內存等狀態(tài)，方便開發(fā)者進行精確分析和調試，提高開發(fā)效率。

大規(guī)模優(yōu)化庫：Colossal-AI提供大規(guī)模并行優(yōu)化器LAMB、LARS等，首次將訓練batch size擴展到65536。Colossal-AI還與PyTorch自帶各類optimizer兼容，并不斷探索添加最新前沿優(yōu)化技術，滿足各類模型需求。

豐富的行業(yè)解決方案

Colossal-AI目前已與自動駕駛、云計算、零售、醫(yī)藥、芯片等行業(yè)知名廠商達成合作，與AI領域頂級開源組織Hugging Face等建立合作。

蛋白質結構預測加速方案：FastFold

AlphaFold因強大的AI預測蛋白質結構能力被Science和Nature評選為2021年十大科學突破之首，但存在訓練時間長、成本高等問題。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

△圖片來源：https://arxiv.org/pdf/2203.00854.pdf

基于Colossal-AI的加速方案FastFold，將GPU優(yōu)化和大模型訓練技術引入AlphaFold的訓練和推理，成功超越谷歌和哥倫比亞大學的方案，將AlphaFold訓練時間從11天減少到67小時，且總成本更低，在長序列推理中也實現(xiàn)9.3～11.6倍的速度提升。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

△長序列推理性能對比

半數(shù)GPU訓練GPT-3

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

對于超大AI模型，如GPT-3，相比英偉達方案，Colossal-AI僅需一半的計算資源，即可啟動訓練；若使用相同計算資源，則能提速11%，可降低GPT-3訓練成本超百萬美元。

Colossal-AI注重開源社區(qū)建設，提供中文教程，開放用戶社群及論壇，對于用戶反饋進行高效交流與迭代更新，不斷添加MoE等前沿應用。

項目團隊

潞晨技術團隊的核心成員均來自美國加州大學伯克利分校，斯坦福大學，清華大學，北京大學，新加坡國立大學，新加坡南洋理工大學等國內外知名高校；擁有Google Brain、IBM、Intel、 Microsoft、NVIDIA等知名廠商工作經歷。公司成立即獲得創(chuàng)新工場、真格基金等多家頂尖VC機構種子輪投資。

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布

△潞晨科技創(chuàng)始人尤洋教授：加州大學伯克利分校博士、IPDPS/ICPP最佳論文、ACM/IEEE George Michael HPC Fellowship、福布斯30歲以下精英(亞洲 2021)、IEEE-CS超算杰出新人獎、UC伯克利EECS Lotfi A. Zadeh優(yōu)秀畢業(yè)生獎

霸榜GitHub熱門第一多日后，Colossal-AI正式版發(fā)布