- ACLFineSurE: 利用 LLMs 进行细粒度总结评估
利用大型语言模型 FineSurE,我们针对文本摘要任务提出了一种细粒度评估方法,该方法在完成度、简洁度和忠实度等多个维度上对摘要性能进行评估,并在各种开源和专有的大型语言模型作为 FineSurE 的基础上进行了广泛的基准测试,改进了摘要 - EMNLP文本摘要质量评估方法的比较研究
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
- 文本摘要中不确定性估计方法的性能评估可信吗?
通过引入综合评估标准,研究本文对两个大型语言模型和一个预训练语言模型在三个数据集上进行的不确定性估计能力的评估表明,多个不相关的自然语言生成指标和多样化的不确定性估计方法对于可靠高效地评估 UE-TS 技术至关重要。
- 通过聚合提示识别错误(DEEP):一种用于检测事实错误的端到端 LLM 框架
用于检测大语言模型生成的文本摘要中的事实错误的一种框架,该框架通过使用多样的语言模型提示来识别事实不一致,并将其输出作为二进制特征进入集成模型,从而产生经验性准确的概率来判断文本是否在事实上一致或不含幻想。
- 文本摘要的系统调查:从统计方法到大型语言模型
通过深度神经网络、预训练语言模型和最新的大型语言模型的出现,文本摘要研究经历了几次重大转型,本文综述通过这些范式转变的视角全面回顾了文本摘要研究的进展和演变,分为两个主要部分:(1) 在大型语言模型时代之前的数据集、评估指标和摘要方法的详细 - 教育中的 Transformer 模型:用 AraBART、MT5、AraT5 和 mBART 概括科学教材
基于现代自然语言处理模型,该研究提出了一种针对阿拉伯文教科书的文本摘要系统,通过评估和提取巴勒斯坦课程中 11 年级和 12 年级生物教科书中最重要的句子,为学生和教师提供了准确有用的摘要,旨在解决阿拉伯文文本摘要的需求,并丰富了该领域的研 - 关键元素信息化的文档摘要优化
通过关键元素指导训练小规模语言模型(sLLMs)进行文本摘要,提高了关键信息和实体的相关性,达到了与专有大规模语言模型相媲美的高质量摘要。
- 基于大型语言模型的 5W1H 提取
通过 ChatGPT,我们基于高质量的 5W1H 数据集,设计了多种从零热点 / 少热点提示到高效调优的策略,以从原始新闻文档中提取 5W1H 分面。实验结果表明,调优后的模型在我们标记的数据集上的性能优于 ChatGPT。此外,我们还探讨 - 自动 FAQ 生成
从 Stanford 哲学百科网站获取的大量文本文档中提取突出的问题和相应的答案,使用现有的文本摘要、文本排序和问题生成工具创建初始的问题和答案集合,通过人工评估得出平均参与者认为 71% 的问题具有意义。
- ACL多层共享知识引导的知识图谱补全学习
利用多级共享知识指导学习方法(SKG)在数据集级别通过文本摘要识别实体集合内的共享特征,而在任务级别则利用动态调整的损失权重提出了一种创新的多任务学习架构,有效缓解了子任务间知识共享不均衡的问题。实验证明 SKG-KGC 在三个知名数据集上 - 文本 - 元组 - 表:通过全局元组提取实现文本到表生成中的信息整合
本论文介绍了 LiveSum,这是一个用于根据实时评论文本生成比赛摘要表格的新基准数据集。该论文评估了最先进的大型语言模型在这项任务中的性能,并提出了一种名为 $T^3$(文本 - 元组 - 表格)的新型流水线来改善性能。实验证明,即使在微 - 增强人工智能认知行为疗法:深度学习和大型语言模型从社交媒体文本中提取认知路径
本研究使用社交媒体数据,旨在提取认知路径并创建一个文本概述任务以帮助心理治疗师更好地进行在线干预,结果表明深度学习方法在层次化文本分类任务中获得了 62.34% 的微平均 F1 分数,而 GPT-4 模型在文本概述任务中表现优于实验深度学习 - 通过文本摘要进行标题点击热点检测的提示微调
通过文本摘要总结内容,并根据生成的摘要与内容之间的相似性进行 clickbait 检测,本文提出了一种基于提示调整的 clickbait 检测方法,该方法通过预训练语言模型产生高质量的新闻摘要,并将头条和新生成的摘要作为提示调整的输入,采用 - ACL文本摘要的幻觉多样性感知主动学习
通过在文本摘要中测量语义框架、话述和内容可验证性中的细粒度错误,我们提出了第一个主动学习框架来减轻 LLM 幻觉,减少对幻觉错误的昂贵人工注释。经过对三个数据集和不同主干模型的广泛实验,我们的方法在有效和高效地减轻 LLM 幻觉方面具有优势 - ACL论文摘要内容单位在文本摘要评估中的作用
本研究通过生成语义角色三元组和大型语言模型来近似摘要内容单元(SCUs),探讨了在文本摘要中 SCUs 的使用条件和价值,并发现大型语言模型是实现最佳近似质量的最佳策略。
- 阅读行文中 -- 从 READMEs 中提取功能
从 Git README 文件中提取功能,通过使用大型语言模型进行文本摘要和代码相关任务的研究,发现小规模微调模型在 F1 得分上击败了 ChatGPT 和 Bard。
- ACLTriSum: 从大型语言模型中学习结构化理由的文摘能力
通过 TriSum 框架,我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型,以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习,我们的方法在各个评估基准上提升了本地化模型的性能,并提供了摘要的合理解释。
- 用于标识潜在有害软件的最终用户许可协议的文本分析
使用文本摘要和集成学习方法,我们提出了一种能够对终端用户许可协议(EULA)进行摘要和分类的解决方案,其中我们提取了不同软件的 EULA 文本,然后使用八种有监督的分类器对文本进行分类。该方法的准确率为 95.8% 表明了其有效性。
- ACL关于细粒度损失截断的好处:一个关于摘要中事实性的案例研究
文本摘要和简化是人工智能最常用的应用之一,然而,针对此类任务开发的模型往往容易出现幻觉,这可能是由于在不对齐的数据上进行训练。为了解决这个问题,我们提出了一种有效的方法,即损失截断(Loss Truncation)(Kang and Has - FENICE: 基于自然语言推理和主张提取的摘要真实性评估
最近在文本摘要方面的最新进展,尤其是随着大型语言模型(LLM)的出现,其表现出色。然而,存在一个明显的挑战,即大量自动生成的摘要存在事实不一致的问题,如幻觉。针对这个问题,出现了各种检验摘要一致性的方法。然而,这些新引入的度量指标都存在一些