- 文档摘要:应用于关键词提取和图像检索的论文
自动摘要是降低文本文档长度的过程,以生成概述,保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要,研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语,并借助相关反馈机制重新排序这些关键短语 - SIGIR指导性的长财务收益电话交流摘要的要点总结
我们通过使用最近发布的 ECTSum 数据集,结合无监督的问题提取模块和参数高效的指令调优抽象模块,解决了长期财务文件的项目摘要化问题,并提出的模型 FLAN-FinBPS 在这一任务上取得了新的最佳性能,超过最强基准模型 14.88% 的 - 无参考摘要的信息论蒸馏
InfoSumm 是一种基于信息理论目标的新型框架,通过互信息来蒸馏出一个强大的摘要器,不依赖于大规模语言模型的能力或人工编写的参考文献,参数仅为 568M,性能竞争力强,在人工评估中超过了领域内监督模型,更胜一筹于 ChatGPT 的可控 - 基于指令引导的多查询灾害摘要
自动总结大规模突发事件在灾难管理中起着关键作用。CrisisFACTS 的第二版旨在基于多流事实查证,重点关注 Twitter、Reddit、Facebook 和 Webnews 等网络信息源的灾难总结。本文描述了我们解决这个具有挑战性任务 - EMNLP科学论文的 Citance - 上下文总结
提出一种新的上下文化摘要方法,该方法可以根据含有引用文献的句子(称为 “引文”)生成信息丰富的摘要,概述了引文相关引用位置的文献内容,该方法提取和建模论文的引文,检索相关的引用文献段落,并生成针对每个引文的抽象摘要。
- EMNLPMILDSum:用于印度法律案例判决的多语言摘要的新型基准数据集
印度司法体系中,针对印度语言的法律文件进行自动摘要是一个重要的问题,本研究以英语为源语言,尝试将印度的法律文件进行跨语言的英汉自动摘要。研究使用了 3122 例高质量的印度法院的判决案件,并展示了在法律领域跨语言摘要研究的必要性。
- 放射学报告总结的指导:实证评估和错误分析
自动生成放射学报告的简明摘要可以减轻临床医生的手动负担,并提高报告的一致性。本研究解决了当前方法依赖领域特定资源和了解错误和失败模式的不足,并提出了一种领域无关的变长提取式摘要作为导向信号,进一步改进了自动摘要的效果,并发现自动摘要与放射学 - ACLGUMSum:英文抽象摘要的多语种数据和评估
本文提出了 GUMSum 数据集,旨在评估抽象概括的英语摘要。该数据集高度约束,注重替换潜力、事实和忠实度,结果显示 GPT3 达到了令人印象深刻的得分,但仍然表现不如人类,并且不同类型的错误揭示了生成好概括的挑战。
- 预训练抽象模型和 LLMs 在法律案件判决摘要方面的准备程度如何?
本文探讨了使用抽象式摘要模型生成司法判决结果的可行性,通过对印度法院判决结果运用数个领域专用和通用语言模型进行检验,发现在标准摘要质量度量标准中抽象式摘要模型略优于抽取式模型,然而生成的抽象式摘要信息通常不一致或产生幻象,因此,目前介入人员 - ACL利用大型语言模型进行元素感知式摘要:专家对齐评估和思路链方法
研究发现 CNN / DailyMail 和 BBC XSum 数据集的参考摘要存在噪音,因为这些摘要主要存在于事实幻觉和信息冗余方面。为了解决这个问题,他们提出了 “Summary Chain-of-Thought(SumCoT)” 技术 - SIGIR一种基于主题感知的摘要生成框架,包含不同的模态侧面信息
本文提出了一个灵活的自动摘要模型,利用统一主题编码器和三元对比学习,将单一或多模侧面信息与文档在相同语义空间内对齐。 在三个常用总结数据集上优于强基准线。
- 评估可控长度机器翻译的功效
本文通过对 18 个自动摘要或机器翻译的评估指标进行人工评估,发现 BLEURT 和 COMET 与人工评估相关性最高,最适合作为可控长度机器翻译的评价指标。
- 基于命名实体识别的研究亮点自动生成
本文介绍了一种基于深度学习模型与实体识别的自动生成研究论文摘要的方法,实验证明使用实体识别可以提高摘要质量。
- 新闻摘要的大型语言模型基准测试
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
- LR-Sum:面向资源匮乏语种的摘要生成
LR-Sum 是一个使用创意共享许可证创建的包含 40 种语言的分别用于多语言新闻概要的数据集,旨在促进对低资源语言自动概括的进一步研究。本文描述了从 Multilingual Open Text 语料库中提取和筛选出该数据集的过程,同时讨 - 气候政策追踪器:自动分析公共气候政策的通道
本研究使用基于潜在狄利克雷分配的自动摘要和分析管道,对欧盟 27 个成员国在 2021 年至 2030 年期间制定的 10 年期国家能源和气候计划(NECPs)进行分析,旨在分析政策框架以便实现更好的公民治理和气候政策参与。
- EMNLPECTSum: 一份新的基准数据集,用于长财报电话会议记录的要点摘要
本文提出了基于 ECTSum 数据集的 ECT-BPS 自动摘要方法,比较并评估了现有自动摘要方法在金融文档摘要任务中的表现。
- 文本摘要中后编辑效果探究
本研究探索了人工智能自动摘要以及人工手动摘要之间的优劣,研究发现人工智能生成的摘要进行后编辑可以提升摘要质量,不过效果因人而异。
- EMNLP无监督学习层次化对话结构
这项工作引入了一种无监督的学习层次对话结构的方法,包括对话行为和子任务。结构显示对于三个会话级理解任务,包括对话模型的优化是有用的。此外,通过自动摘要,学习的有限状态子对话网络是可解释的。
- EMNLPCiteSum: 受引文本引导的科学极简摘要与有限监督下的领域自适应
本文提出了一种从引文文本中自动提取科学论文 TLDR 摘要的简单有效方法,并基于此提出了一个新的基准数据集 CiteSum,该数据集比之前的人工筛选的数据集 SciTLDR 大约 30 倍,使用此数据集进行训练的模型在少量样例下即可取得明显