多叙事语义重叠任务：评估和基准测试

Jan, 2022

多叙事语义重叠任务：评估和基准测试

Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark

Naman Bansal, Mousumi Akter, Shubhra Kanti Karmaker Santu

TL;DR本文介绍了一个重要但相对未被探索的 NLP 任务，称为多叙事语义重叠（MNSO），它涉及生成多个替代叙事的语义重叠。我们使用在网上爬取的 2,925 个叙事对创建了一个基准数据集，并通过人工注释创建了 411 个不同的地面真实语义重叠，提出了一个新的精确度 - 召回率样式的评估指标 SEM-F1。实验结果表明，该指标与人类判断的相关性更高，而且相较于 ROUGE 指标，具有更高的人际一致性。

Abstract

In this paper, we introduce an important yet relatively unexplored nlp task called multi-narrative semantic overlap (MNSO), which entails

nlp semantic overlap multi-narrative evaluation metric rouge

发现论文，激发创造

语义重叠归纳任务的 LLM 性能评估

应用 TELeR 分类法和 15 种流行的大型语言模型（LLMs），对语义重叠摘要任务进行全面评估，评估它们在从多个备选叙述中总结重叠信息的能力，通过使用 ROUGE、BERTscore 和 SEM-F1 等已建立的指标对两个不同数据集进行评估，并分析各种 LLMs 在捕捉重叠信息方面的优势和局限性。

Feb, 2024

针对韩语文摘的参考文献和文档感知语义评估方法

本文提出了一种衡量文本摘要的方法，即参考文献和文档感知语义得分（RDASS），用于韩语这种将各种语素组合成表达多种含义的词汇的语言。通过我们的评估指标，可以提高文本概括的人类判断相关性。研究结果表明，我们的评估指标与人类判断的相关性显著高于 ROUGE 得分。

Apr, 2020

SueNes：一种弱监督方法通过负采样评估单文档摘要

本文提出了一种无需参考摘要的弱监督自动摘要评估方法，通过将现有摘要数据集中的大量数据与损坏的参考摘要进行配对来训练，实现了横向领域测试，证明了该方法在语言质量评估方面具有很大优势。

May, 2020

SemEval-2010 Task 8：对名词对之间语义关系进行多路分类

本篇论文提出了一项新的任务 SemEval-2010：对名词对之间的互斥语义关系进行多方分类，目的是评价不同的方法以及提供未来研究的标准测试平台，文中定义了任务，描述了数据集的创建过程，并讨论了 10 个组中 28 个系统的参与结果。

Nov, 2019

ROUGE 2.0: 更新和改进的自动文摘任务评估指标

介绍 ROUGE2.0 对机器生成的摘要的自动评估方法，包括 ROUGE-N + 同义词、ROUGE-Topic、ROUGE-Topic + 同义词、ROUGE-TopicUniq 和 ROUGE-TopicUniq + 同义词等几种改进的 ROUGE 指标，用于改善原有指标在捕捉同义概念和内容覆盖方面的局限性。

Mar, 2018

语义答案相似度度量评估

提出了利用基于 Transformer 模型度量方法对自然语言生成及问答系统进行语义相似度评估的框架，并使用 US-American public figures 的同指名字对数据集进行训练，取得较高的语义相似度度量结果。

Jun, 2022

基于图的叙事可视化的混合多模型语义交互

本文介绍了一种语义交互框架，即 Mixed Multi-Model Semantic Interaction（3MSI），它可以通过引入一个抽象离散结构的结构空间，将感知空间与离散结构相互作用，支持分析人员进行故事地图的建模，并进行了定量和定性评估。

Feb, 2023

在抽象摘要中平衡词汇和语义质量

本文针对序列到序列的神经网络中常见的曝光偏差问题，提出了一种在词法和语义质量之间平衡的重排序方法，并以 BERTScore 为衡量标准，在 CNN/DailyMail 数据集上实现了新的最优表现。

May, 2023

超越表面相似性：检测金融叙述中微妙的语义转变

介绍了金融领域特定的 NLP 任务 —— 金融语义相似性（Financial-STS）任务，该任务的目的是评估金融报告对比中的细微语义差异，以帮助金融决策，发现现有的预训练嵌入模型和 LLM 嵌入不足以区分这些细微的金融故事变化，因此提出了一种 LLM 增强的针对金融 - STS 任务的流程，通过在人工标注数据集上进行评估，证明我们的方法胜过在经典 STS 任务和通用 LLM 嵌入上训练的现有方法。

Mar, 2024

NLU-STR 在 SemEval-2024 任务 1 中的应用：基于生成的增强和基于编码器的评分方法用于语义文本相关性

该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法，在 SemRel-2024 任务中取得了显著的结果，包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名，以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。

May, 2024