成本直降70%的秘密:這些企業找到了一種高性價比的AI打開方式
這些公司正在用CPU承載AI任務。
近半年來,ChatGPT 所帶來的 AI 熱度是大家能直觀感受到的。
其實,在不那么直觀的地方,數據也在悄然發生變化:斯坦福大學發布的「2023 年 AI 指數報告」顯示,2022 年采用 AI 的公司比例自 2017 年以來翻了一番以上。這些公司報告稱,采用 AI 之后,它們實現了顯著的成本降低和收入增加。
雖然 2023 年的數據還沒出來,但僅憑被 ChatGPT 帶火的 AIGC 領域就不難推測,上述數字將在今年迎來新的拐點。AIGC 大有掀起第四次產業革命之勢。
但與此同時,這些企業在構建 AI 基礎設施方面也迎來了新的挑戰。
首先,就算力而言,AI 領域 算力需求激增和供給不足形成的矛盾在今年變得尤其激烈 ,就連 OpenAI CEO Sam Altman 都坦言自家公司正被算力短缺問題困擾,其 API 的可靠性和速度問題屢遭投訴。此外,大批公司還面臨這波需求高漲帶來的算力成本上升問題。
其次,在模型的選擇上,不少企業發現,當前討論熱度最高的 大模型其實還沒有一個成熟的商業模式 ,其安全性等方面還存在問題。以三星設備解決方案部門為例,他們在啟用 ChatGPT 不到一個月的時間內,就發生了三起數據泄露事件,這讓原本打算直接調用 OpenAI API 的企業打了退堂鼓。此外,自己訓練、部署超大模型同樣很勸退:想象一下,僅僅簡單地向一個大模型發送一次請求,可能就需要昂貴的 GPU 卡進行獨占性的運算,這是很多企業都難以承受的。
不過,話說回來,像 ChatGPT 那樣「無所不知」的超大模型真的是企業所必需的嗎?運行 AI 模型輔助業務就意味要瘋狂擴充 GPU 規模嗎?那些已經利用 AI 提升效益的企業是怎么做的?在分析了一些企業的最佳實踐之后,我們找到了一些參考答案。
如果要分析最早應用人工智能提升效益的行業,互聯網是繞不開的一個,其典型工作負載 —— 推薦系統、視覺處理、自然語言處理等 —— 的優化都離不開 AI。不過,隨著業務量的激增,他們也在性能和成本等層面面臨著不同的挑戰。
首先看 推薦系統 。
推薦系統在電子商務、社交媒體、音視頻流媒體等許多領域都有廣泛的應用。以電子商務為例,在每年的 618、雙十一等購物高峰,阿里巴巴等頭部電商企業都會面臨全球龐大客戶群發出的數億實時請求,因此他們希望滿足 AI 推理在吞吐量與時延方面的要求,同時又能確保 AI 推理精確性,保證推薦質量。
接下來看 視覺處理。
僅美團一家,我們就能找到智能圖片處理、商戶入駐證照識別、掃碼開單車、掃藥盒買藥等多個應用場景。AI 已經成為其業務版圖中很重要的一部分。不過,隨著美團業務與用戶量的高速增長,越來越多的應用需要通過視覺 AI 構建智能化流程,美團需要在保證視覺 AI 推理精度的同時,提升視覺 AI 推理的吞吐率,以支撐更多的智能化業務。
最后看 自然語言處理 。
得益于 ChatGPT 帶來的熱度,自然語言處理正獲得前所未有的市場關注與技術追蹤。作為國內 NLP 技術研究的先行者,百度已在該領域構建起完整的產品體系與技術組合。ERNIE 3.0 作為其飛槳文心?NLP 大模型的重要組成部分,也在各種 NLP 應用場景,尤其是中文自然語言理解和生成任務中展現出卓越的性能。不過,隨著 NLP 在更多行業中實現商業化落地,用戶對 ERNIE 3.0 也提出了更多細分需求,例如更高的處理效率和更廣泛的部署場景等。
所有這些問題的解決都離不開大規模的基礎設施投入,但困擾這些企業的共同問題是: 獨立 GPU 雖然可以滿足性能所需,但是成本壓力較大,因此一味擴充 GPU 規模并不是一個最佳選項 。
AI 社區存在一個刻板印象:CPU 不適合承載 AI 任務。但 Hugging Face 首席傳播官 Julien Simon 的一項展示打破了這種刻板印象。他所在的公司和英特爾合作打造了一個名為 Q8-Chat 的生成式 AI 應用,該應用能夠提供類似 ChatGPT 的聊天體驗,但僅需一個 32 核英特爾® 至強® 處理器就能運行。
就像這個例子所展示的, 用 CPU 承載 AI 任務(尤其是推理任務)其實在產業界非常普遍,阿里巴巴、美團、百度都用相關方案緩解了算力問題 。
阿里巴巴:用 CPU 助力下一代電商推薦系統,成功應對雙十一峰值負載壓力
前面提到,阿里巴巴在電商推薦系統業務中面臨 AI 吞吐量、時延、推理精確性等方面的多重考驗。為了實現性能與成本的平衡,他們選擇用 CPU 來處理 AI 推理等工作負載。
那么,什么樣的 CPU 能同時頂住多重考驗?答案自然是英特爾® 第四代至強® 可擴展處理器。
這款處理器于今年年初正式發布,除了一系列微架構的革新和技術規格的升級外,新 CPU 對 AI 運算「更上層樓」的支持也格外引人關注,尤其是英特爾在這代產品中增添的全新內置 AI 加速器 —— 英特爾高級矩陣擴展(AMX)。
在實際的工作負載中,英特爾® AMX 能夠同時支持 BF16 和 INT8 數據類型,能夠確保該 CPU 像高端通用圖形處理器(GPGPU)一樣處理 DNN 工作負載。BF16 動態范圍與標準 IEEE-FP32 相同,但精度較 FP32 變低。在大多數情況下,BF16 與 FP32 格式的模型推理結果一樣準確,但是由于 BF16 只需要處理 FP32 一半尺寸的數據,因此 BF16 吞吐量遠高于 FP32,內存需求也大幅降低。
當然,AMX 本身的架構也是為加速 AI 計算所設計的。該架構由兩部分組件構成:2D 寄存器文件(TILE)和 TILE 矩陣乘法單元(TMUL),前者可存儲更大的數據塊,后者是對 TILE 進行處理的加速單元,可在單次運算中計算更大矩陣的指令。
憑借這種新的架構,英特爾® AMX 實現了大幅代際性能提升。與運行英特爾® 高級矢量擴展 512 神經網絡指令(AVX-512 VNNI)的第三代英特爾® 至強® 可擴展處理器相比,運行英特爾® AMX 的第四代英特爾® 至強® 可擴展處理器將單位計算周期內執行 INT8 運算的次數從 256 次提高至 2048 次,執行 BF16 運算的次數為 1024 次 ,而第三代英特爾® 至強® 可擴展處理器執行 FP32 運算的次數僅為 64 次。
英特爾® AMX 的高級硬件特性為阿里巴巴的核心推薦模型帶來了 AI 推理性能突破,并保證了足夠的精度。此外,阿里巴巴還使用英特爾® oneAPI 深度神經網絡庫 (英特爾® oneDNN),將 CPU 微調到峰值效率。
下圖顯示,在 AMX、BF16 混合精度、8 通道 DDR5、更大高速緩存、更多內核、高效的內核到內核通信和軟件優化的配合下,主流的 48 核第四代英特爾® 至強® 可擴展處理器可以將代理模型的吞吐量提升到 2.89 倍 ,超過主流的 32 核第三代英特爾® 至強® 可擴展處理器,同時將時延嚴格保持在 15 毫秒以下,推理精度依然能夠滿足需求。
優化后的軟件和硬件已經部署在阿里巴巴的真實業務環境中, 它們成功通過了一系列驗證,符合阿里巴巴的生產標準,包括應對阿里巴巴雙十一購物節期間的峰值負載壓力。
而且,阿里巴巴發現,升級為第四代英特爾® 至強® 可擴展處理器帶來的性能收益遠高于硬件成本,投資收益非常明顯。
美團:用 CPU 承載低流量長尾視覺 AI 推理,服務成本直降 70%
前面提到,美團在業務擴展中面臨視覺 AI 推理服務成本較高的挑戰。其實,這個問題并非鐵板一塊:部分低流量長尾模型推理服務的負載壓力與時延要求是相對較低的,完全可以用 CPU 來承載。
在多個視覺 AI 模型中,美團通過采用英特爾® AMX 加速技術,動態將模型數據類型從 FP32 轉換為 BF16,從而在可接受的精度損失下,增加吞吐量并加速推理。
為了驗證優化后的性能提升,美團將使用英特爾® AMX 加速技術轉換后的 BF16 模型,與基準 FP32 模型的推理性能進行了比較。測試數據下圖所示,在將模型轉化為 BF16 之后, 模型推理性能可實現 3.38-4.13 倍的提升,同時 Top1 和 Top5 精度損失大部分可以控制在 0.01%-0.03%。
得益于性能的提升,美團能夠更加充分地釋放現有基礎設施的潛能,降低在 GPU 部署與運維方面的高昂成本,并 節省 70% 的服務成本 。
百度:將蒸餾后的模型跑在 CPU 上,解鎖更多行業、場景
眾所周知,模型中更多的層數、參數意味著更大的模型體積、更強的計算資源需求以及更長的推理耗時,對于業務響應速度和構建成本敏感的用戶而言,無疑提高了引入和使用門檻。因此,在 NLP 領域,模型小型化是一個常見的優化方向。
百度也采用了這一做法,借助模型輕量化技術對 ERNIE 3.0 大模型進行蒸餾壓縮,從而將其推廣到更多行業與場景 。這些輕量版的模型(ERNIE-Tiny)不僅響應迅速,還有一個重要優勢:無需昂貴的專用 AI 算力設備就能部署。因此,引入更強的通用計算平臺和優化方案,就成了助力 ERNIE-Tiny 獲得更優效率的另一項重要手段。
為此,百度與英特爾展開深度技術合作:一方面將第四代英特爾® 至強® 可擴展處理器引入 ERNIE-Tiny 的推理計算過程;另一方面,也推進了多項優化措施,例如通過英特爾® oneAPI 深度神經網絡庫來調用英特爾® AMX 指令等,以確保 ERNIE-Tiny 可以更為充分地利用 AMX 帶來的性能加速紅利。
來自對比測試的數據表明,相比通過英特爾® AVX-512_VNNI 技術來實現 AI 加速的、面向單路和雙路的第三代英特爾® 至強® 可擴展處理器,ERNIE-Tiny 在升級使用內置英特爾® AMX 技術的第四代英特爾® 至強® 可擴展處理器后,其 整體性能提升高達 2.66 倍 ,取得了令人滿意的效果。
目前,各個 ERNIE-Tiny 不僅已部署在零門檻 AI 開發平臺 EasyDL、全功能 AI 開發平臺 BML 和 ERNIEKit (旗艦版) 產品中,它們也將與平臺和產品的其它能力一起協同,在基于第四代英特爾® 至強® 可擴展處理器的基礎設施上,為 使用者提供文本分類、關系抽取、文本生成以及問答等能力。
從阿里巴巴、美團、百度的實踐經驗可以看到,在真實的生產環境中,真正發揮作用的依然是一些規模沒那么大的 AI 模型。這些模型的部署已經有了可借鑒的成熟方案,可以借助英特爾® 至強® CPU 以及配套的軟硬件加速方案獲得顯著的成本效益。
當然,隨著 AIGC 的強勢崛起,不少企業也將目光瞄準了這類大一些的模型。但正如前面所討論過的,無論是調用超大模型 API 還是自己訓練、部署都有各自的問題,如何選擇一種經濟、高效又安全的解決方案是擺在企業面前的棘手難題。
企業擁抱 AIGC 就意味著一定要有一個「無所不知」的超大模型嗎?對此,波士頓咨詢公司(BCG)給出的答案是否定的。
他們選擇的解決方案是利用自己的數據訓練一個行業專用模型。這個模型可能沒有那么大,但可以洞察 BCG 過去 50 多年中高度保密的專有數據。同時,所有的 AI 訓練和推理都完全符合 BCG 的安全標準。
這套解決方案的背后是一臺英特爾 AI 超級計算機,該計算機搭載英特爾® 第四代至強® 可擴展處理器和 Habana® Gaudi2® AI 硬件加速器,前者在 PyTorch 上的 AI 訓練性能最高能提升到上一代產品的 10 倍,后者在計算機視覺(ResNet-50)和自然語言處理(BERT 微調)方面的表現優于英偉達 A100,在計算機視覺方面幾乎與 H100 不分伯仲。二者強強聯合,為 BCG 提供了一套經濟高效的 AIGC 解決方案。
在一個聊天機器人界面上,BCG 員工能夠從冗長的多頁文檔列表中,通過語義搜索來檢索、提取并匯總有效信息。BCG 報告稱,這與現有的關鍵字搜索解決方案相比,其 用戶滿意度提高了 41%,結果準確性增長了 25%,工作完成率提高了 39% 。
由此可見,無論是傳統的中小規模 AI,還是當前頗有前景的 AIGC 行業大模型,GPU 都不是 AI 加速的唯一選擇。但無論是何種規模的模型,英特爾都給出了頗具性價比的軟硬件組合解決方案。
對于想要應用 AI 提升效益的企業來說,選擇何種規模的模型、搭建怎樣的軟硬件基礎設施都沒有標準答案,所謂的超大模型、超大 GPU 算力集群可能都非必需。根據業務特點和屬性選擇適合自己的技術方案才是實現最優解的重要因素。
參考鏈接:
https://www.intel.cn/content/www/cn/zh/artificial-intelligence/amx-tencent-bert-model-search-applications.html
https://www.intel.cn/content/www/cn/zh/cloud-computing/alibaba-e-comm-recommendation-system-enhancement.html
本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者:機器之心,36氪經授權發布。
