REDUCT: Keep It Close, Keep It Cool! : Efficient Scaling of DNN Inference on Multi-core CPUs with Near-Cache Compute

Anant Nori,Rahul Bera,Shankar Balachandran,Joydeep Rakshit,Om J. Omer,Avishaii Abuhatzera,Belliappa Kuttanna,Sreenivas Subramoney

2021 ACM/IEEE 48th Annual International Symposium on Computer Architecture (ISCA)（2021）

引用 15|浏览45

关键词

REDUCT,architectural bandwidth resources,light-weight tensor,power-hungry front-end stages,DNN inference power,data parallel DNN inference workloads,memory model,DNN models,multilevel cache hierarchy,out-of-order CPU pipeline,fixed-iteration count loop-y workload behavior,CPU resources,multicore CPU DNN inference,raw performance scaling,general-purpose single thread performance,CPU pipeline design complexity,datacenter,general purpose multicore CPUs,deep neural networks,near-cache compute,DNN inference scaling

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要