Aug, 2024

在核心互连智能处理器上扩展深度学习计算

TL;DR该研究解决了当前深度学习编译器无法充分利用新型AI芯片中可扩展核心互连的问题。论文提出了T10编译器,创新性地引入分布式张量抽象rTensor,并通过普适的计算迁移模式优化了DNN模型在核心间的数据交换,从而实现了3.3倍的性能提升,使得对更大模型的可扩展性得以支持。