通过对抽象摘要模型进行偏见定量化研究,并应用不同的模型和适应方法来总结社交媒体意见的任务,本研究发现大多数模型具有固有偏见。使用社交媒体文本摘要数据集并对比各种适应方法,发现调整较少的参数不如标准微调偏见较小;然而,用于微调的训练数据中的主题多样性至关重要。
Feb, 2024
通过校准概率与自然语言推理模型一致性得分之间的关系,我们提出了一种改进抽象文本摘要模型的方法,该方法确保所生成的摘要更加一致且质量更高。
Oct, 2023
本文提出了一种摘要框架,通过将目标的所有评论压缩为多个密集向量以代替传统的前置筛选步骤,从而最大化地保留所有信息,进而生成更具信息量的摘要,并且采用零样本技术,能够有效地生成根据用户需求定制的摘要,实验结果表明了该模型在 Rotten Tomatoes 数据集上的优越性能。
Sep, 2019
本文介绍了一种学习无监督条款,在生成模型中引入少量样本来捕获其必要属性的方法,用于生成商品评论等主观性文本的摘要,该方法比以往的提取和抽象方法更有效。
Apr, 2020
本文提出了一种基于自我训练的抽象化意见摘要方法 OpineSum,该方法使用文本蕴涵的新颖应用程序来捕捉一个项目的各种评论中的意见共识,从而在大规模上获得银标准摘要并训练无监督和少量样本的摘要系统,而在结构中实现了最先进的性能。
Dec, 2022
本文提出了一种基于推文训练的两步分类方案,用于检测长文本中的政治偏见。该方案包括通过推特数据训练中性检测器,用于去除文章中的中性句子以实现意见集中,并提高了文章的预测准确性。
本论文提出了一种基于方面查询的定制摘要生成方法,使用多示例学习模型诱导的方面控制器创建 (review,summary) 对的合成训练数据集,通过微调预训练模型,生成修改方面控制器的方面特定摘要。在两个基准测试中,我们的模型表现优于先前的技术水平,并通过控制讨论的方面数量生成个性化摘要。
Sep, 2021
本文研究文摘模型的校准问题,发现通过多样的候选池和调整不同的选择策略可以提高校准效果。在三个不同的长篇文本摘要数据集上测试,发现对于可靠性校准最好采用一些可能被生成的摘录作为反例集合,而对于相关性校准则应该最大化候选集之间的度量间隔,同时最小化模型和度量定义的排名差异。
May, 2023
本文研究从立场相似度和立场多样性两个方面对 COVID-19 相关的三个争议性话题进行分析,考察了 BART 和 ChatGPT 两种语言模型对于文本中多样化观点的覆盖能力和相似立场的关系。实验结果显示,观点相似度较高并不代表着能充分呈现文本中观点的多样性。
Jun, 2023
本文提出了一种基于多层次探测极性语言的词向量模型的文本去极性框架,用于检测和取代媒体报道中的极性语言,实现文本去极性。作者通过对 11 个话题的 99 个故事应用该方法,使用自动和半自动模式比较分析原始文本和去极性后的文本,并通过 161 个人类测试人员获得高反馈,证明了该方法在有效去极性的同时保留了原始文本的信息。
Jan, 2021