九游會(huì)j9網(wǎng)站首頁:嘉楠科技發(fā)布高性能圖像及語音處理 AI 芯片勘智 K510
作者:j9九游會(huì)發(fā)布時(shí)間:2025-03-02
IT之家 7 月 8 日消息 嘉楠科技正式發(fā)布 AI 芯片勘智 K510。該芯片定位于中高端邊緣推理市場,搭載自主研發(fā) IP 核的升級(jí)版本 KPU2.0,采用獨(dú)創(chuàng)計(jì)算數(shù)據(jù)流與復(fù)用方式,在算力提升 3 倍的同時(shí)降低芯片功耗。K510 集成新一代圖像處理單元,搭載 3D ISP,支持 TOF 深度攝像頭,以及 2D/3D 降噪、WDR 寬動(dòng)態(tài)、魚眼矯正和硬件 3A 等功能。在應(yīng)用方面,K510 支持高清視頻會(huì)議、高清航拍和機(jī)器人等邊緣側(cè)場景。
IT之家獲悉,官方介紹,K510 在總線架構(gòu)、IP 核心與視頻子系統(tǒng)推出全新設(shè)計(jì),相比一代芯片算力提升 3 倍,經(jīng)典視覺算法大幅度優(yōu)化,自研高速 PHY 接口理論帶寬 10GB/s,8 位數(shù)據(jù)壓縮率 50% 以上,極大優(yōu)化了勘智 AI 系列在機(jī)器視覺場景的應(yīng)用性能。
總線結(jié)構(gòu)是一款 SoC 的主要特征。為了解決 SoC 總線地址空間有限以及芯片受單一時(shí)鐘的影響,嘉楠科技在 NoC 總線架構(gòu)中設(shè)計(jì)了可擴(kuò)展的地址空間,使每個(gè) IP 核工作在特定的時(shí)鐘域。
根據(jù)相關(guān)性,K510 將系統(tǒng)時(shí)鐘結(jié)構(gòu)劃分成多個(gè)時(shí)鐘域,從而解決分狀態(tài)時(shí)鐘控制問題。把整個(gè)系統(tǒng)劃分成多個(gè)可支持上下電操作的電源域,從而解決了分區(qū)域控制能耗問題。
在 ISA 方面,K510 沿用 RISC-V 雙核 64 位 CPU 架構(gòu),并集成了數(shù)字信號(hào)處理器 DSP 來輔助加速 AI 應(yīng)用。不同的是,嘉楠科技為 DSP 設(shè)計(jì)了專用的片上存儲(chǔ),并且在雙核 CPU 與 DSP 之間加入 mailbox 通信模塊,以實(shí)現(xiàn)對(duì)系統(tǒng)各部分的靈活調(diào)度。
K510 自主研發(fā) IP 核 KPU2.0 融合了嘉楠科技在算法、軟硬件和編譯器的最新設(shè)計(jì),集中突破 AI 芯片設(shè)計(jì)中廣泛存在的“存儲(chǔ)墻”和“性能墻”的問題。
首先是“存儲(chǔ)墻”,計(jì)算過程需要把數(shù)據(jù)從存儲(chǔ)器搬運(yùn)到處理器才能進(jìn)行運(yùn)算。而存儲(chǔ)器的吞吐性能往往滯后于處理器的性能增長,直接影響了計(jì)算效率的提升。嘉楠科技在 KPU2.0 中采用了全局本地緩存設(shè)計(jì),通過 SRAM 陣列滿足神經(jīng)網(wǎng)絡(luò)中不同層級(jí)對(duì)內(nèi)部訪問帶寬和存儲(chǔ)的需求。
其次是“性能墻”,為了提升計(jì)算效率,KPU2.0 采用了動(dòng)態(tài) 3D PE 陣列。第三個(gè)維度支持多種方式共享傳遞數(shù)據(jù),并實(shí)現(xiàn)多個(gè)維度上的計(jì)算映射,提高 PE 陣列的利用率。同時(shí)也可以動(dòng)態(tài)開啟或關(guān)閉每一個(gè) 2D 陣列,并根據(jù)不同層級(jí)對(duì)帶寬和計(jì)算資源的需求進(jìn)行調(diào)整九游會(huì)j9官網(wǎng)真人游戲第一品牌。
結(jié)合動(dòng)態(tài) 3D PE 計(jì)算陣列和靈活的全局本地訪存設(shè)計(jì),嘉楠科技提出的計(jì)算數(shù)據(jù)流,計(jì)算卷積不需要進(jìn)行 im2col(image to column)數(shù)據(jù)重排,提升計(jì)算效率;而通過多級(jí)存儲(chǔ)設(shè)計(jì),K510 可以增加卷積計(jì)算的數(shù)據(jù)復(fù)用,從而減少數(shù)據(jù)的讀取次數(shù),降低芯片功耗。
同時(shí),KPU2.0 還搭載了可重構(gòu)的 SIMD 加速單元,通過創(chuàng)新的 meshnet 網(wǎng)絡(luò)可以靈活配置支持各種激活函數(shù)、pooling 和 resize 等算子。
K510 搭載的高速 PHY 接口由嘉楠科技自主研發(fā)。LPDDR4 支持 32 位雙通道,最高頻率 2700MHz,理論最大帶寬 10GB/s。MIPI D-PHY spec v1.2, 支持 4 通道輸入,每通道峰值速率達(dá) 2.5Gbps。
與第一代芯片相比,K510 在幀率和外設(shè)方面都有大幅優(yōu)化九游會(huì)j9網(wǎng)站首頁。此外,K510 還支持浮點(diǎn) BF16 計(jì)算,在不適合進(jìn)行模型量化的場景相比同類產(chǎn)品更具優(yōu)勢。
在外設(shè)方面,K510 搭載 MIPI CSI2 和 DVP 接口,可同時(shí)支持最多 3 個(gè)攝像頭輸入。MIPI CSI 接口支持 1x4 lane 和 2x2 lane 模式,靈活支持各種 MIPI 攝像頭。K510 MIPI 支持 DPHY v1.2 標(biāo)準(zhǔn),最高速率每 lane 可達(dá) 2.5Gbps,支持 RAW, RGB, YUV 等各種流行格式。
K510 內(nèi)部還集成了 3 個(gè)圖像處理單元 ISP, 其中一個(gè) ISP 支持 3D 功能,無需軟件參與,直接依靠硬件完成深度數(shù)據(jù)的提取加工,相比軟件處理深度信息方式不但節(jié)省了巨大的 CPU 開銷,性能上也會(huì)有很大提升。
為進(jìn)一步提高芯片對(duì)算法模型的適配,嘉楠科技在 K510 的編譯器和軟件上聯(lián)合優(yōu)化帶寬需求,對(duì)算法進(jìn)行量化壓縮。

K510 在設(shè)計(jì)上針對(duì)中間層數(shù)據(jù)和權(quán)重的分布特性采用不同的壓縮算法。針對(duì)中間層計(jì)算數(shù)據(jù),利用相鄰數(shù)據(jù)的相關(guān)性進(jìn)行無損壓縮,即便 8 位數(shù)據(jù)的平均壓縮率也能達(dá)到 50% 以上,并且基本不損失精度;對(duì)權(quán)重?cái)?shù)據(jù)則采用稀疏壓縮,在網(wǎng)絡(luò)進(jìn)行稀疏訓(xùn)練的情況下,壓縮率也可以到 50% 以上。
在軟件方面,K510 支持豐富的網(wǎng)絡(luò)模型算子,包括常見的 CNN、RNN 和各類向量計(jì)算和數(shù)據(jù)處理操作。支持裸機(jī)、嵌入式 RTOS 和 Linux,并且移植了 OpenCV Python Numpy。同時(shí),K510 支持 TensorFlow、PyTorch、ONNX 和 TVM 等主流深度學(xué)習(xí)框架,兼容性更強(qiáng)。
得益于架構(gòu)優(yōu)化和高清 MIPI 的強(qiáng)大配置,K510 支持 2~3 路 2K 顯示和 VPU 圖像拼接,以及業(yè)內(nèi)最前沿的 TOF VSLAM 視覺導(dǎo)航技術(shù),快速實(shí)現(xiàn)對(duì)障礙物的測距和避障,可用于無人機(jī)航拍、高清視頻會(huì)議和機(jī)器人等多個(gè)場景。