关键词long text understanding
搜索结果 - 2
- 利用从摘要模型蒸馏的知识提升长文本理解能力
通过使用抽象化摘要生成模型的主旨检测能力,我们提出了 Gist Detector 来加强下游模型对长文本的理解能力,并评估了该方法在长文档分类、远程监督的开放领域问答以及非平行文本风格转换等三个不同任务上的性能表现,结果显示我们的方法在所有 - LongHeads:多头注意力暗地里是一个长上下文处理器
通过解锁多头注意力的潜力,我们提出了一个无需额外训练的框架 LongHeads,以增强大语言模型(LLMs)在处理长篇输入方面的能力,通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记,同时不同层的不同头可以共同