- 科学审校 Reloaded: 透明度与逻辑推理的双向模式
通过两个步骤解决科学信息检索中的限制,第一个步骤使用查询扩展来加强稀疏检索的语言理解,第二个步骤通过仅利用长文档中的信息来提供综合和信息丰富的答案,实现双向参与,进而在透明性、逻辑思维和综合理解方面带来显著的进展。
- Jina 嵌入 2:8192 令牌的长文本通用嵌入
Jina Embeddings 2 is an open-source text embedding model designed to process long documents efficiently, achieving state - 利用合成数据集对命名实体识别上下文进行排序学习
采用 Alpaca 生成合成的上下文检索训练数据集,并使用基于 BERT 模型的神经上下文检索器,为命名实体识别找到相关的上下文,优于基准检索方法。
- 长文件的内容减少、惊讶度和信息密度估计
我们提出了四项用于估计长文档信息密度的标准,包括惊讶度、熵、均匀信息密度和词汇密度,并提出了一种基于注意力的临床笔记词语选择方法和多领域文档的机器摘要方法。实证结果表明不同领域的长文本信息密度存在系统差异,基于注意力的词语选择方法对于长临床 - C2F-FAR 与 ChatGPT 构建的混合式长文本摘要:一项实证研究
本文介绍了一个使用 ChatGPT 和 C2F-FAR 提出的混合抽取和摘要文本的流程,可以用于长篇文章和书籍。机器生成的摘要可以与人工摘要在自动化评估指标下表现得一样好,但在文本连贯性、忠实度和风格等方面仍存在问题。因此,我们认为 Cha - SIGIR基于已学稀疏检索的长文档适应性
本研究探讨了通过使用近似评分适应长文档的已有聚合方法、并给出了将顺序依赖模型(SDM)应用于学习到的稀疏检索(LSR)的两种改进方法:ExactSDM 和 SoftSDM。结果表明,这些改进方法优于现有的 LSR 聚合方法,并且 SoftS - ChatGPT 与现有模型的关键词生成任务基准研究
本研究对比 ChatGPT 与现有技术模型的关键词生成能力,探究其在应对领域适应性和长文本关键词生成方面的潜力。实验结果表明 ChatGPT 在不同数据集和环境中均优于现有技术模型,能生成高质量、适应多样领域和文本长度的关键词。
- WSDM长文档跨语言摘要
本文介绍了长文档跨语言摘要的研究现状,并构建了 Perseus 数据集,评估了不同的从结构和端到端方案,结果表明端到端方案卓越地胜过利用复杂机器翻译系统配备的管道模型。
- 基于分层注意力机制的高效长文档分类探索
本研究开发并发布了使用分段编码器,并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型,在多个长文档下游分类任务中,我们的最佳 HAT 模型在使用 10-20% GPU 内存的情况下比同等大小的 L - EMNLPHEGEL:用于长文档摘要的超图变换器
本文提出了一种名为 HEGEL 的超图神经网络方法来解决长文本提取式摘要中跨句子关系建模难的问题,通过捕捉高阶跨句子关系来更新和学习有效的句子表示,并融合包括潜在主题、关键词、指代和章节结构等不同类型的句子依赖,实验证明其有效性和高效性。
- 通过综合评估和排行榜了解长文档排名模型的性能
本研究综合评估了 13 个模型在排名长文档方面的功能,包括两种专用 Transformer 模型,同时分析了训练和比较这些模型的几个困难。结果表明,虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试,但我们认为 - 医学文档理解的分层 BERT 模型
提出了一种名为 MDBERT 的新模型,采用自下而上的分层架构,能够对长且具有多层语义的医学文件进行编码,并在多个 NLU 任务中得到有效应用。
- 长文档分类的比较研究
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数 - 通过语境化语言模型和分层推断进行自监督文档相似性排名
提出了一种自我监督方法 SDR,可以用于任意长度的文档相似度计算,评估结果显示,SDR 在所有指标上显著优于其它方法。
- 预训练变形金刚模型用于文本排名:BERT 及其它
本文主要阐述了如何将 transformers 和 self-supervised pretraining 技术应用于文本排名问题,组成了两个高级别的现代技术,即在多阶段架构中进行 reranking 的 transformer 模型和直接 - 长文档摘要的分而治之方法
该研究提出了一种新颖的分治法神经摘要长文档的方法,结合话语结构和句子相似性将长文档分解为多个摘要子问题。通过该方法可以有效地降低计算复杂度,提高摘要效果。
- 提升问题生成的上下文捕获能力
本文旨在通过运用多阶段关注机制和序列到序列模型,在长文档的背景下产生更真实的问题,结果表明在 SQuAD、MS MARCO 和 NewsQA 三个问答数据集上,该方法优于现有方法。
- EMNLP结合全局和局部上下文的长文档摘要提取
本文提出了一种新颖的神经网络抽取式文档摘要模型,结合整个文档的全局上下文和当前主题内的局部上下文;我们在 Pubmed 和 arXiv 两个科学论文数据集上评估了该模型,并在 ROUGE-1,ROUGE-2 和 METEOR 分数上优于以前 - IJCAIRLTM: 一种针对长文档的高效神经信息检索框架
提出了一种新的端到端神经排序框架 —— RLTM,它可以高效地匹配长文档,并且通过强化学习的方法在成对的样例间最大化正负例间的得分差距,从而显著提高了现有模型的效率和有效性。