基于机器反馈的强化学习器改写不当论证的 LLM

Jun, 2024

基于机器反馈的强化学习器改写不当论证的 LLM

LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback

Timon Ziegenbein, Gabriella Skitalinskaya, Alireza Bayat Makou, Henning Wachsmuth

TL;DR通过基于强化学习的重写方法，平衡内容保留和恰当性，该研究通过评估不同的奖励函数权重方案，证明可以在很大程度上改善争论的不适当性，而且胜过其他竞争对手基线模型。

Abstract

Ensuring that online discussions are civil and productive is a major challenge for social media platforms. Such platforms usually rely both on users and on →

online discussions social media platforms automated detection tools inappropriate language reinforcement learning

发现论文，激发创造

正式辩证推理是否可以提升 LLMs 的性能？

介绍了一种计算论证语义引擎（MQArgEng）和初步研究，评估引入计算论证语义对大型语言模型性能的影响。实验结果表明 MQArgEng 在大部分考察的主题类别中提供了适度的性能提升，呈现出潜力并值得进一步研究。

May, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

语言模型能否识别有说服力的论点？

大型语言模型（LLMs）的能力不断增长，但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力，我们在 Durmus＆Cardie（2018）的数据集上进行了研究，提出了衡量 LLMs 能力的任务，包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平，并且合并不同 LLMs 的预测可以显著提高性能，甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。

Mar, 2024

社交讨论中的非监督式知识转移能否帮助论述挖掘？

本研究提出了一种基于社交讨论的无监督学习策略，使用已预训练的语言模型，选择性地使用掩码语言模型任务进行微调，并引入了一种基于提示的策略，在将被提取的论点组件之间预测关系时支持上下文语境，此方法表现出了在本领域和跨领域数据集上超越了多个现有的和强基线模型的潜力。

Mar, 2022

利用离线增强学习的可适应声明重写方法，有效发现误信息

介绍了一种基于离线强化学习的查询重写策略，以帮助事实核查员在多个社交媒体平台上进行有效的搜索，实验证明该方法能够将查询的效力相对提高达 42% 同时也具有可读性。

Oct, 2022

LLM 审查：机器学习挑战还是计算机安全问题？

大型语言模型在理解复杂指令方面显示出令人印象深刻的能力，但是它们对提供的指令的盲目奉承引发了对恶意使用风险的担忧。本文介绍了这种语义审查方法的理论局限性，并指出由于大型语言模型的编程和按指令行事的能力而产生的审查所带来的困难。此外，我们认为这些挑战不仅仅局限于语义审查，有了足够的背景知识，攻击者可以从一组允许的输出中重构出不可接受的内容。因此，我们建议重新评估审查问题，并将其视为一个安全问题，采用基于安全的方法来减轻潜在的风险。

Jul, 2023

通过强化学习驱动的查询优化增强大规模语言模型的能力和稳健性

提出了一种可转移且可插拔的框架，用于改进用户提示，提高大型语言模型的生成能力和鲁棒性，以产生更真实、良性和有用的响应。

Jul, 2024

论述中恰当语言的建模

本文首次运用论证研究中经过验证的基于修辞学规范的理论，构建了一个 14 维度的新的不适当语言分类，建立了一个 2191 个论点的基准分类语料库，其中所有维度都可以在该语料库上进行计算建模。实证分析支持分类体系全面涵盖了适宜性的概念，与论据质量维度之间存在几个可信的关联。

May, 2023

利用 LLMs-in-the-Loop 策略揭示社交媒体信息中的潜在论证

利用大型语言模型（LLMs）从社交媒体消息中提取潜在观点的通用 LLMs-in-the-Loop 策略，旨在解决社交媒体话语研究中手动编码方法的耗时和高成本问题。

Apr, 2024

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023