用于辨识论据背后的人类价值观的 Touché23-ValueEval 数据集
本文提出了一种集成方法来从论述文本中检测人类价值观,该方法包括三个模型,并通过不同的方法组合实验,最终获得 0.48 的 F1 分数。
May, 2023
我们进行了实验,旨在识别论据背后的人类价值观,通过在模型训练过程中引入人类价值观的定义来提高预测性能,结果表明我们提出的模型相比于挑战组织者的基线模型表现更好,宏 F1 分数提高了高达 18%。
Feb, 2023
探索自动评估论点质量的任务,通过对 6.3k 个论点进行精细注释,以及 14k 个论点对的高品质论点独立标注,提出基于最近发布的语言模型的神经方法进行论点排序和论点对分类,产生与最先进技术相媲美的结果。
Sep, 2019
本研究致力于构建社交智能代理,开发了一个大规模自然语言文本数据集 ValueNet 以及基于 Transformer 的价值回归模型。通过让生成式代理从价值模型中学习奖励,研究者在个性化对话生成数据集和共情对话数据集中获得了最优表现。此外,该数据集为人类价值建模提供了基础,在情感智能的对话系统中具有广泛的应用价值。
Dec, 2021
通过引入一个涵盖辩论中各项任务的论证挖掘数据集,我们评估了多种生成基准模型,并发现虽然它们在个别任务上表现出有希望的结果,但在全部任务上的整体性能明显下降,这对于我们提出的数据集提出了挑战,需要进一步研究端到端的论证挖掘和概括。
Jun, 2024
本文介绍了一个包含 78,376 次辩论和全面参与者个人资料的数据集,利用该数据集,与通常用于类似研究的语言特征相比,分析了选定用户特征对辩论结果的影响。
Jun, 2019
本文介绍了 WorldValuesBench,这是一个全球多元化的大规模基准数据集,用于多元文化价值预测任务,要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目 World Values Survey(WVS),从全球 94728 名参与者那里收集了数百个价值问题(例如社会、经济、伦理学)。我们从 WVS 的回答中构建了超过 2000 万个 “(人口统计属性,价值问题) → 回答” 的例子。我们使用这个数据集进行了案例研究,并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅 11.1%、25.0%、72.2% 和 75.0% 的问题上,Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1 和 GPT-3.5 Turbo 分别可以实现与人类归一化答案分布的 Wasserstein 1 距离小于 0.2。WorldValuesBench 为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。
Apr, 2024
我们介绍了 OpenDebateEvidence,这是一个从美国竞争辩论社区收集的全面的论点挖掘和总结数据集。该数据集包括超过 350 万个具有丰富元数据的文档,是最大的辩论证据集之一。OpenDebateEvidence 捕捉了高中和大学辩论中论点的复杂性,为训练和评估提供了宝贵的资源。我们的大量实验证明了对最新大型语言模型进行微调以进行论辩抽象总结的有效性,涵盖了各种方法、模型和数据集。通过提供这一全面的资源,我们旨在推动计算论证的发展,并支持辩论者、教育工作者和研究人员的实际应用。OpenDebateEvidence 已公开可用,以支持计算论证的进一步研究和创新。在此访问:this https URL
Jun, 2024
本文介绍了在 SemEval-2023 任务 4(“辩论背后人类价值观的识别”)中表现最好的 “亚当・斯密” 方法,该方法利用基于 transformer 的模型通过 Ensembling,选择全局决策阈值,从而实现在竞赛中获得最佳表现。同时,我们还表明使用大型模型的 Ensembling 是不必要的,系统的规模可以大大减小。
May, 2023