从预训练到适应过程中的观点摘要偏倚:以政治偏倚为案例研究
本文提出了一种摘要框架,通过将目标的所有评论压缩为多个密集向量以代替传统的前置筛选步骤,从而最大化地保留所有信息,进而生成更具信息量的摘要,并且采用零样本技术,能够有效地生成根据用户需求定制的摘要,实验结果表明了该模型在 Rotten Tomatoes 数据集上的优越性能。
Sep, 2019
本文研究从立场相似度和立场多样性两个方面对 COVID-19 相关的三个争议性话题进行分析,考察了 BART 和 ChatGPT 两种语言模型对于文本中多样化观点的覆盖能力和相似立场的关系。实验结果显示,观点相似度较高并不代表着能充分呈现文本中观点的多样性。
Jun, 2023
本研究介绍了微博观点摘要(MOS)的任务以及共享了一个数据集,包含 3100 个金标准意见摘要,其中摘要是新闻记者根据模板区分事实信息(主要内容)和作者意见创建的。该研究提供了基于抽象和提取式自动摘要方法的实验结果,并证明精调可以提高自动摘要的性能。
Aug, 2022
概括是大型语言模型(LLMs)的一个重要应用,先前的评估主要关注它们在内容选择、语法和连贯性方面的表现,但众所周知 LLMs 会传递和强化有害的社会偏见,因此我们需要研究这些偏见是否会影响文摘模型的输出。为了回答这个问题,我们首先提出了一些针对文摘模型中的偏见行为的定义,并介绍了实际的度量方法。然后,为了避免输入文档中的内在偏见对分析的干扰,我们提出了一种方法来生成具有精细控制的人口属性的输入文档。最后,我们将我们的度量方法应用于专为文摘模型和通用聊天模型生成的文摘中,发现单一文档的内容选择似乎在很大程度上不受偏见的影响,而虚构现象显示出有偏见传播到生成的文摘中的证据。
Sep, 2023
该研究使用实体替换方法研究了新闻文章自动生成摘要中对政治家的描绘,发现抽取和生成式摘要模型中川普和拜登的政治偏见存在着差异,该系统性特征提供了未来研究偏见的框架。
May, 2023
本文评估了不同预训练模型在不同数据集上的文本摘要效果,通过 ROUGE 和 BLEU 指标比较了三种不同预训练模型在 CNN-dailymail、SAMSum 和 BillSum 三个数据集上的性能表现。
Feb, 2023
本文介绍了一种基于政治观点分类器的传播模型的摘要方法,名为 P^3Sum。通过在解码步骤中迭代评估生成摘要的政治倾向,并在推理时对偏移进行损失反向传播给嵌入层,P^3Sum 方法在新闻摘要中成功保持立场的百分比方面优于现有技术,并在标准摘要实用性度量方面表现相当。这些发现凸显了即使对于最先进的模型也在新闻摘要中保持作者观点的困难,而 P^3Sum 则是评估和开发忠实于作者意图和观点的摘要系统的重要第一步。
Nov, 2023
本文提出了一种基于自我训练的抽象化意见摘要方法 OpineSum,该方法使用文本蕴涵的新颖应用程序来捕捉一个项目的各种评论中的意见共识,从而在大规模上获得银标准摘要并训练无监督和少量样本的摘要系统,而在结构中实现了最先进的性能。
Dec, 2022
本文介绍了基于神经网络和机器学习的 Opinion Summarization,主要是关于 customer reviews 的情感摘要,包括自监督、少样本和有监督学习方案,并提出了资源和评估方法。
Jun, 2022