通过孪生网络选择更具有说服力的证据

Jul, 2019

通过孪生网络选择更具有说服力的证据

Are You Convinced? Choosing the More Convincing Evidence with a Siamese Network

Martin Gleize, Eyal Shnarch, Leshem Choshen, Lena Dankin, Guy Moshkowich...

TL;DR本研究使用新数据集IBM-EviConv，基于Siamese神经网络架构，证明其对命题具有更强的相关性，提供实验结果和实用见解。

Abstract

With the advancement in argument detection, we suggest to pay more attention to the challenging task of identifying the more convincing arguments. Machines capable of responding and interacting with humans in hel

发现论文，激发创造

联合指针体系结构用于论点挖掘

本文介绍了第一个基于神经网络的自动化论证挖掘方法，并采用了指针网络结构来提取和分类不同的论证组件，以揭示论证文本中存在的论证结构和层级体系。实验结果表明，优化两个任务的性能和添加完全连接层对于高性能至关重要。

Dec, 2016

通过辩论实现人工智能安全

通过采用自我对弈的零和辩论游戏的方式来训练智能体，以此作为人类判断的替代，来实现AI系统对于复杂任务的精准输出，并讨论了辩论模型的理论和实践方面的问题。

May, 2018

使用可扩展的贝叶斯偏好学习寻找有说服力的论据

本文提出了一种可扩展的贝叶斯偏好学习方法，用于在没有黄金标准评分或排名的情况下识别有说服力的论点，通过开发一种用于高斯过程偏好学习的随机变分推理方法，发现贝叶斯方法可以有效地预测争论中的有说服力的论点，并且可以通过推广主动学习来降低所需数据的量。

Jun, 2018

通过学习说服问答模型来寻找可推广的证据

使用基于句子的问题回答(QA)作为实验场景，我们提出了一种系统，该系统能够找到最强有力的支持证据以证明问题的答案，我们训练证据代理程序，以选择能够最具有说服力地证明给定答案的句子，这些证据不包括完整段落，我们发现，证据代理程序选择一般化的证据，这种方法提高了QA在健壮性方面的表现，证据代理程序选择的证据使人类能够在只利用大约20％的完整段落的情况下回答问题，并且QA模型能够适用于更长的段落和更难的问题。

Sep, 2019

人工智能辩论中真相何时受青睐？

研究人员提出在AI解决方案无法得到准确判断的问题中，可通过两个AI系统之间的辩论来增强人类法官的问题解决能力，并介绍了一个可建模此类辩论的数学框架，并将辩论设计的质量测量为最有力回答的准确性。

Nov, 2019

辩论动态下的知识图谱推理

通过辩论动态理论提出了一种自动推理知识图谱的新方法，以三段式分类为例，该方法基于增强学习代理和二进制分类器解释和预测关于知识图谱中观点真实性的辩论证据，从而可用于知识图谱的推理和链接预测，实验表明该方法优于其他基线模型。

Jan, 2020

计算论证中的主张优化

本研究提出了一种新的任务，即通过重新编写具有说服力的论证描述来优化其传递方式，并使用序列到序列模型和上下文信息生成了候选的最优论证描述来改善传递，该方法在英语语料库上的自动和人工评估中胜过了其他重新排序基线，并且能够很好地推广到其他文本领域。

Dec, 2022

与更具说服力的LLMs辩论会导致更真实的回答

大型语言模型的对齐方法主要依赖于人工标注数据，但随着模型的不断发展，人类专业知识将不再足够，将由非专家来监督专家。我们研究了一个类似情景，强大模型（专家）拥有回答问题所需的信息，而弱小模型（非专家）缺乏这些信息。我们发现辩论方法对非专家模型和人类都有帮助，相应的准确率分别为76%和88%（与朴素基准分别为48%和60%）。此外，以无监督方式优化专业辩手的说服力可以提高非专家模型在辩论中识别真相的能力。我们的研究结果为在没有绝对真实性的情况下，通过辩论来对齐模型提供了有益的实证证据。

Feb, 2024

语言模型能否识别有说服力的论点？

大型语言模型（LLMs）的能力不断增长，但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解LLMs的说服能力，我们在Durmus＆Cardie（2018）的数据集上进行了研究，提出了衡量LLMs能力的任务，包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现LLMs在这些任务中能与人类持平，并且合并不同LLMs的预测可以显著提高性能，甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的LLMs的潜在影响和能力做出了关键而持续的贡献。

Mar, 2024

你站在哪一边？一项用于端对端论点摘要和评估的多任务数据集

通过引入一个涵盖辩论中各项任务的论证挖掘数据集，我们评估了多种生成基准模型，并发现虽然它们在个别任务上表现出有希望的结果，但在全部任务上的整体性能明显下降，这对于我们提出的数据集提出了挑战，需要进一步研究端到端的论证挖掘和概括。

Jun, 2024