Mar, 2024

流式对话:通过最小损失的长上下文压缩实现长时间对话学习

TL;DR通过将长对话历史压缩为最少损失的会话关注点(conv-attn sinks),我们的方法大幅减少了计算复杂度,并分别设计了短期记忆重构(SMR)和长期记忆激活(LMR)的学习策略,使得该方法在对话任务中优于强基线,并实现了 4 倍加速和 18 倍内存使用减少。