Sep, 2023

RT-LM:面向实时推理的语言模型不确定性感知资源管理

TL;DR对于应用于实时响应系统中的语言模型,我们通过定量实验表明RT-LM能显著减少平均响应时间、提高吞吐量,并且在运行时开销相对较小。