利用應用處理器IP構建人工智能計算型存儲系統

半導體行業觀察

+ 關注

2022-03-04 11:05

560次閱讀

隨著物聯網、流媒體、社交媒體、人工智能模型的建模與仿真、醫療成像和其他數據密集型應用的飛速發展，推動數據爆發式增長，到2027年，全球云存儲市場將以每年25.3%的速度增長，據YouTube官方博客的數據，每分鐘有超過500小時的內容上傳到YouTube。從市場調查報告的結果顯示，預計明年將有850億美元用于云存儲。

這些數據的增長需要有更大的存儲容量，更高效、高性能的數據中心基礎設施來存儲和檢索數據，更快的數據移動接口，還要能提供更多的計算資源來處理數據。數據增長也推動了數據中心運營商們加大投資，以獲得更高的性能，更強的計算能力，減少數據移動（緩存相干接口，計算存儲），并尋求低功率存儲解決方案，同時降低碳足跡。

計算型存儲被提出

數據移動占數據中心能耗的很大一部分，有效的降低數據移動的數量可以降低數據中心的耗能。舉一個用數據庫搜索記錄的典型案例：在美國環境保護局（U.S. Environmental Protection Agency）的數據庫中搜索“大氣中二氧化硫含量超過健康上限75 ppb”的數據，會出現數百萬條記錄，但卻僅有不到1/1000是相關的。傳統方式是將整個數據庫傳輸到內存中，由主機CPU處理，大大增加了不必要的數據移動。如果計算存儲能夠只向主機發送相關記錄以供進一步分析的話，則能大大減少數據的移動量。

如果能為存儲設備（計算存儲）增加計算能力則可以提高性能和降低能耗。具體表現在：一方面可以減少數據移動和關聯，比如減少延遲和網絡帶寬的消耗；另一方面將數據保留在驅動器內，具有更高的安全性；再者其還可以針對工作負載優化處理。

新的計算存儲架構在傳統的基礎上，加入存儲計算處理器（如下圖所示），由存儲處理器執行關鍵操作和數據過濾，只向主機發送關鍵數據，并且計算資源根據CSD的數量進行擴展。CSD架構的優勢在于存儲端的處理器可以根據應用進行優化，提供更好的性能同時減少硬件的花費。

新思的計算存儲處理器IP

計算存儲數據流的過程通常是這樣的：首先主機發起高級命令（例如查找匹配特定鍵的記錄），然后計算存儲處理器分析命令并發起讀請求，接下來計算存儲處理器需要構建傳輸描述符，描述符被分派到適當的flash通道，從flash返回的讀取數據經過數據路徑并由計算存儲處理器進行分析（進程鍵匹配），將匹配記錄發送到DDR（如果匹配），再將封裝在主機接口協議中的DDR和DMA中的記錄數據匹配到主機內存中，最后從計算存儲處理器向主機發送成功的完成指示（如果沒有匹配，則向主機發送錯誤）。

但是，存儲內計算還有一些注意事項，比如SSD需要額外的處理能力，需要有友善的軟件開發環境，終端應用客戶能夠容易的在平臺上開發應用軟件。為此，新思科技推出了DesignWare ARC處理器IP啟用智能存儲驅動器。

針對計算存儲的應用，新思科技推出了ARC HS4x/HS4xD處理器，它是為嵌入式應用程序優化而提供的超標量內核。它是一款獨立的、雙發行的10級超標量體系結構，是一款高性能的嵌入書處理器，RISC提高40%，DSP性能提高2倍，每核高達5400 DMIPS@ 1.8 GHz。

HS4xD擴展了ARCv2DSP ISA的性能范圍，它擁有超過100+額外的DSP指令，并兼容流行的ARC EMxD內核，可用于額外的基帶、語音/語音、音頻。ARC HS4x/HS4xD處理器具有單核、雙核和四核版本。還有著高效的軟件開發，其優化的編譯器能最大限度的提高RISC和DSP性能，以及具有優化的DSP庫支持。

除了既有的DSP指令之外，ARC 處理器IP還提供了APEX (ARC Processor Extension)的技術提供用戶自行添加指令來加速特定的算法。

一個案例是使用APEX獲得更好的SSD效率。在這個案例中，新思的客戶采用了APEX的技術新增了專用指令進行紅黑樹搜索算法的優化。紅黑樹搜索算法是經常被使用在FTL （Flash Translation Layer）中的搜索算法，用于在內存中對I/O請求進行排序。結果發現，使用APEX指令能減少3個關鍵功能50%循環計數，而只增加了5%的核心面積。

新思科技還推出了ARC HS6x處理器，它是一款基于ARCv3的面向高端嵌入式優化的64位ISA。ARCv3 ISA和微架構可擴展到12核的集群，最多16mb的共享集群緩存，向后兼容32位ARCv2內核。最高性能的ARC標量處理器可達6.1 CM/MHz（單核HS6x），其單核性能比HS4x提高20%，在HS4x （x4）上，具有最多3倍的集群性能。其優化的開發工具支持簡化了軟件開發，最大化了性能。ARC HS6x可在同一集群內動態調整NVMe-oF和Flash管理軟件所占用的核心數量，增加軟件運行的靈活性。

據了解，新思科技的下一代ARC可擴展集群架構，高度可擴展到高達100gb/s相干，800gb /s非相干帶寬；能最多拓展至12個ARC核，外加16個客戶IP和IO設備接口；所有的核心和集群內存都可以在它們自己的時鐘和電源域中運行。

AI是未來存儲解決方案的一部分

人工智能正在迅速發展，且是一項不可或缺的技術。為什么人工智能會出現在存儲領域？因為人工智能需要數據，而數據就要存放在存儲中。而且邊緣的數據正在大幅增長，移動數據的“代價昂貴”。其實大多數人工智能處理可以在存儲中完成。人工智能可用于離線處理數據，然后根據需要將其移動到數據中心或云。

AI在存儲中的應用有很多，如預測熱點和冷數據、根據需要的訪問確定數據存儲位置、數據生命周期管理、從存儲的數據中發現洞察力、創建元數據（關于數據的數據）、進行對象檢測和分類、存儲分層（平衡速度，存儲成本）、提升SSD性能和QoS、延長SSD壽命/提高可靠性、低寫放大因子（WAF）、數據聚類、flash糾正錯誤、故障預測。

具有可編程神經網絡加速器的人工智能處理器經常使用在計算存儲處理架構中實現，下圖是新思科技的ARC EV 處理器，擁有向量DSP以及神經網絡加速器的異質架構，非常適合用在人工智能存儲的應用中。

總結

傳統的數據從驅動器移動到計算，需要跨接口和協議移動，消耗大量時間和增加延遲，而且移動數據要消耗能量，數據復制多次，具有較低的安全。在這樣的情況下，存儲內計算被提出。存儲內計算能將計算在存儲裝置中完成，最大限度地減少數據移動，減少延遲，最大限度地減少能量的消耗。數據將保留在驅動器中，本地數據具有更高的安全性。可以針對工作負載優化處理。人工智能（NN架構）也將逐漸成為未來存儲解決方案的一部分。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

本文來自微信公眾號 “半導體行業觀察”（ID：icbank），作者：杜芹，36氪經授權發布。