墨芯發布32倍稀疏AI計算卡，性能對標英偉達 | 甲子首發

甲子光年

+ 關注

2022-03-24 16:10

1203次閱讀

搭載墨芯首款芯片ANTOUM，面向數據中心AI推理應用。

作者 | 范文婧

編輯 | 趙健

又一家對標英偉達的AI芯片公司發布新產品。

2022年3月22日，墨芯人工智能宣布即將發布兩款面向云計算市場的AI計算卡：SparseOne™? S-100和SparseMegatron™? S-300，這兩款AI計算卡均搭載墨芯首顆英騰處理器（ANTOUM），是全球首款高達32倍稀疏率的AI計算芯片。

其中SparseMegatron™? S-300對標英偉達A10和A30（全高全長），計算標準模型ResNet50，算力超90000 FPS；SparseOne™? S-100對標英偉達T4（半高半長)，算力達31031FPS，運行ResNet50時，SparseOne™? S-100與T4相比，算力超后者的6倍，而功耗則不到后者的1/2。

墨芯發布32倍稀疏AI計算卡，性能對標英偉達 | 甲子首發

墨芯人工智能創立于2018年，創始團隊是來自于卡耐基梅隆大學的頂尖AI科學家和世界頂級半導體公司的芯片專家。創始人兼CEO王維曾在英特爾和高通總部工作十余年，是英特爾第五代到第十代CPU處理器的核心設計成員。團隊中亦有來自Marvell、平頭哥的員工，擁有存儲、AI芯片等大芯片的研發經驗。

截止目前，墨芯已經完成五輪融資。最近一次融資是發生在2021年底的A輪融資，金額數億人民幣，由基石資本、大灣區共同家園發展基金領投，同威資本、中科華盛、及深圳天使母基金跟投。2021年初墨芯依次獲得浪潮云?；鸷椭腔刍ヂ摦a業基金戰略投資。

借產品即將發布之際，「甲子光年」采訪了墨芯人工智能創始人兼CEO王維，和他聊聊墨芯用稀疏化算法做AI計算卡的一些思考。

1.“稀疏化計算”開啟AI算力2.0

墨芯人工智能所在的AI芯片市場前景廣闊。根據公開資料，2020年全球AI芯片市場規模約為101億美元，年復合增長率達52.1%。其中中國云端AI芯片市場規模為111.7億元人民幣，是AI芯片的主要細分市場。

然而近年來，芯片的算力發展逐漸跟不上算力的需求。王維告訴「甲子光年」，目前AI計算對算力的需求每3.5個月就要翻一番，與此同時，根據摩爾定律算力需要每18個月左右才能翻一番。

于是，傳統的算力供給模式將要被打破，市場不再按照算力供給方來配套設計上層的軟件和應用場景，而需要根據具體的應用場景，打通算法、軟件和硬件，在立項之初就做一體化的設計。

業內有人將這種模式定義為“AI芯片2.0時代”。

新的時代離不開技術的創新與發展。本次，墨芯發布的AI加速卡，搭載了首款芯片ANTOUM，并應用“稀疏化計算模式”，嘗試突破算力極限。

“稀疏化計算”的原理不太復雜，是指在原有AI計算的大量矩陣運算中，將含有0元素或無效元素的計算剔除，以加快計算速度。

比如在人臉識別的場景中，傳統的算法會直接計算圖片中的每一個元素與現有圖片模型的關聯，從而得出結論。而應用稀疏化計算，先在圖片中找出需要比對的元素，而后只需計算這些元素與現有圖片模型的關聯。

在王維看來，一項好的新技術，需要有足夠的創新性、創新的可持續性和可商業化三個方面。而墨芯的“稀疏化”正是這樣的創新技術。

在創新性方面，業內的共識是，一項革命性的技術需要比現有的技術強10倍以上，比如性能高10倍、功耗低10倍、或者成本降低10倍等。王維介紹，應用稀疏化算法，能夠為客戶提供 4~32 倍稀疏化壓縮能力，計算速度能夠達到原有的10~20倍。

在可持續性方面，王維覺得，隨著AI模型參數越來越大，算力增長得越來越快，模型的稀疏性也將越高，未來的模型可以稀疏50倍甚至100倍。

在可商業化方面，墨芯做了更多前置思考。

2.降低算力TCO，做面向應用的AI計算卡

隨著AI芯片賽道的逐漸成熟，除了技術與產品性能方面的競爭，“商業化落地”方面的考量變得愈發重要。

具體來說，墨芯希望通過降低客戶的TCO（單位算力的硬件擁有成本），讓客戶更愿意使用。TCO主要可以分為兩個方面，包括硬件購買成本和使用的能耗成本。

互聯網及科技企業對于數據中心的需求非常大，大型的互聯網公司每年在數據中心建設方面的投入能夠達到數十億的規模。由于墨芯的計算卡擁有目前GPU的5~10倍的等效算力，在單卡價格相當的情況下，可以大幅降低客戶整體的采購成本。

除此之外，客戶的使用和遷移成本也較低。墨芯開發的編譯器已適配其計算卡，支持通用的AI開發平臺TensorFlow、PyTorch或MXNet等。在具體的應用，墨芯軟件棧Moffett NNKit 中特有的 Moffett NNCompressor 為客戶模型提供 4-32 倍稀疏化壓縮能力，客戶依舊可以在熟悉的TensorFlow或PyTorch環境里進行開發，方便遷移與交付。

在使用成本方面，墨芯更關注能效比。王維介紹，相較于市場旗艦產品，S-100運行ResNet 50時，每FPS的能效TCO可以降低6倍；運行BERT時，每SPS的能效TCO可以降低10倍，可以有效地降低能耗。

墨芯發布32倍稀疏AI計算卡，性能對標英偉達 | 甲子首發