使用 Transformer 模型对长文本进行建模的调查
该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进,并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。
Nov, 2023
本文提供了一个广泛的长文本分类的基准测试方法,包括二分类、多分类、多标签分类任务,研究发现更复杂的模型并不总是优于简单的基准模型,并且在不同数据集上表现不稳定,因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。
Mar, 2022
基于 Transformer 架构的大型语言模型(LLMs)的近期进展在自然语言处理(NLP)应用领域展示了显著的拓宽范围,超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用,重点关注 GPT 系列,对人工智能(AI)驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究,同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展,Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究,突出了其多功能性和在实际应用领域中转型的潜力,从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。
Mar, 2024
本文综述了深度神经网络在自然语言处理中的应用,重点关注长文本处理的挑战和解决方案,包括文档分类、摘要生成和情感分析等任务,同时列举了当前用于研究的公开数据集。
May, 2023
本研究使用稀疏注意力机制和分层变换器方法,对基于 Transformers 的长文本分类进行比较,探讨了四个文本分类数据集,并得出了实际应用此方法的实用建议。
Apr, 2022
研究长文档匹配的最新进展集中在使用基于 transformer 的模型进行长文档编码和匹配,本文实证演示了相对于 transformer-based 模型,使用简单的神经模型(如前馈网络和 CNN)和简单的嵌入(如 GloVe 和 Paragraph Vector)在文档匹配任务中的更高效性。
Feb, 2023
本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员成功构建出具有竞争性的长文本问答模型,并在五个长文本摘要数据集上取得了新的性能最高记录。
Sep, 2022
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。
Sep, 2021