BriefGPT.xyz
Ask
alpha
关键词
long-text processing
搜索结果 - 4
能否通过困惑度反映大型语言模型对长篇文本理解的能力?
最近的研究表明,大语言模型在处理极长文本方面具有潜力。然而,通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题,困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖,因此,仅通过困惑度证明模型可以处理长文本是不合适的。
→
PDF
2 months ago
LongAgent: 通过多智能体协作将语言模型扩展至 128k 上下文
通过多智能体协作的方法,我们提出了一种名为 LongAgent 的方法,将大型语言模型(例如 LLaMA)的上下文窗口扩展到 128K,并在长文本处理方面展示了相对于 GPT-4 的潜在优势。LongAgent 中,一个领导者负责理解用户意
→
PDF
5 months ago
Fovea Transformer:高效的结构化精细到粗糙注意力长上下文建模
Fovea Transformer 是一种以长 - context 为中心的 Transformer 模型,通过在输入序列中构建一个多尺度树来提高模型对全局依赖性的捕捉能力,并在长 - context 摘要任务上取得了最先进的性能。
PDF
8 months ago
用于长文本建模的循环注意力网络
本文提出了一种新型深度学习神经网络 RAN,采用自注意力机制和递归结构相结合的方法,实现了在长文本处理中的可重复性操作,对文本进行建模提取全局语义信息,并能兼容顺序和分类任务。实验结果表明,RAN 模型具有出色的编码能力,适用于长文本语义的
→
PDF
a year ago
Prev
Next