用于辨识论据背后的人类价值观的 Touché23-ValueEval 数据集

Jan, 2023

用于辨识论据背后的人类价值观的 Touché23-ValueEval 数据集

The Touché23-ValueEval Dataset for Identifying Human Values behind Arguments

Nailia Mirzakhmedova, Johannes Kiesel, Milad Alshomary, Maximilian Heinrich, Nicolas Handke...

TL;DR我们提出了 Touché23-ValueEval 数据集，用于识别论据背后的人类价值观，并通过自动化检测方法，从 6 个不同源头的 9324 个论点中收集数据。该数据集相对于之前的数据集表现更好，尽管标签分布使分类难度增加，但更大的数据集可以训练出更好的模型。

Abstract

We present the touché23-valueeval dataset for Identifying human values behind arguments. To investigate approaches for the →

touché23-valueeval dataset automated detection human values arguments bert model

发现论文，激发创造

Rudolf Christoph Eucken 在 SemEval-2023 任务 4 中：一种集成方法用于从论证中识别人类价值观

本文提出了一种集成方法来从论述文本中检测人类价值观，该方法包括三个模型，并通过不同的方法组合实验，最终获得 0.48 的 F1 分数。

May, 2023

利用定义提高论点背后人类价值预测 —— SemEval-2023 任务 4 上的 Epicurus

我们进行了实验，旨在识别论据背后的人类价值观，通过在模型训练过程中引入人类价值观的定义来提高预测性能，结果表明我们提出的模型相比于挑战组织者的基线模型表现更好，宏 F1 分数提高了高达 18%。

Feb, 2023

一个大规模的争论质量排名数据集：建立与分析

本研究探索了论证质量排序的挑战性任务，构建了一个被精心注释的语料库来解决这个问题，并进行了综合评估，最后提出了一种神经方法来解决此问题。

Nov, 2019

自动论证质量评估 -- 新数据集和方法

探索自动评估论点质量的任务，通过对 6.3k 个论点进行精细注释，以及 14k 个论点对的高品质论点独立标注，提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类，产生与最先进技术相媲美的结果。

Sep, 2019

ValueNet: 人类价值导向对话系统的新数据集

本研究致力于构建社交智能代理，开发了一个大规模自然语言文本数据集 ValueNet 以及基于 Transformer 的价值回归模型。通过让生成式代理从价值模型中学习奖励，研究者在个性化对话生成数据集和共情对话数据集中获得了最优表现。此外，该数据集为人类价值建模提供了基础，在情感智能的对话系统中具有广泛的应用价值。

Dec, 2021

你站在哪一边？一项用于端对端论点摘要和评估的多任务数据集

通过引入一个涵盖辩论中各项任务的论证挖掘数据集，我们评估了多种生成基准模型，并发现虽然它们在个别任务上表现出有希望的结果，但在全部任务上的整体性能明显下降，这对于我们提出的数据集提出了挑战，需要进一步研究端到端的论证挖掘和概括。

Jun, 2024

建模在线辩论中用户和语言效应的语料库

本文介绍了一个包含 78,376 次辩论和全面参与者个人资料的数据集，利用该数据集，与通常用于类似研究的语言特征相比，分析了选定用户特征对辩论结果的影响。

Jun, 2019

WorldValuesBench：一种大规模多文化价值意识语言模型的基准测试数据集

本文介绍了 WorldValuesBench，这是一个全球多元化的大规模基准数据集，用于多元文化价值预测任务，要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目 World Values Survey（WVS），从全球 94728 名参与者那里收集了数百个价值问题（例如社会、经济、伦理学）。我们从 WVS 的回答中构建了超过 2000 万个 “(人口统计属性，价值问题) → 回答” 的例子。我们使用这个数据集进行了案例研究，并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅 11.1%、25.0%、72.2% 和 75.0% 的问题上，Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1 和 GPT-3.5 Turbo 分别可以实现与人类归一化答案分布的 Wasserstein 1 距离小于 0.2。WorldValuesBench 为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。

Apr, 2024

OpenDebateEvidence：大规模论据挖掘与摘要数据集

我们介绍了 OpenDebateEvidence，这是一个从美国竞争辩论社区收集的全面的论点挖掘和总结数据集。该数据集包括超过 350 万个具有丰富元数据的文档，是最大的辩论证据集之一。OpenDebateEvidence 捕捉了高中和大学辩论中论点的复杂性，为训练和评估提供了宝贵的资源。我们的大量实验证明了对最新大型语言模型进行微调以进行论辩抽象总结的有效性，涵盖了各种方法、模型和数据集。通过提供这一全面的资源，我们旨在推动计算论证的发展，并支持辩论者、教育工作者和研究人员的实际应用。OpenDebateEvidence 已公开可用，以支持计算论证的进一步研究和创新。在此访问：this https URL

Jun, 2024

Adam-Smith 参加 SemEval-2023 任务 4：使用基于 Transformer 的模型集合发现论点中的人类价值观

本文介绍了在 SemEval-2023 任务 4（“辩论背后人类价值观的识别”）中表现最好的 “亚当・斯密” 方法，该方法利用基于 transformer 的模型通过 Ensembling，选择全局决策阈值，从而实现在竞赛中获得最佳表现。同时，我们还表明使用大型模型的 Ensembling 是不必要的，系统的规模可以大大减小。

May, 2023