Chain of Explanation: 针对隐性仇恨言论生成更高质量自然语言解释的新提示方法

Sep, 2022

Chain of Explanation: 针对隐性仇恨言论生成更高质量自然语言解释的新提示方法

Chain of Explanation: New Prompting Method to Generate Higher Quality Natural Language Explanation for Implicit Hate Speech

PDF

Fan Huang, Haewoon Kwak, Jisun An

TL;DR该研究利用先进的生成语言模型来生成关于文本含有令人厌恶的原因的自然语言解释，并使用启发式词语和目标群体提出了 “解释链” 促进方法，由于提供了准确的目标信息，我们将 NLE 生成的 BLUE 成绩从 44.0 提高到 62.3。我们最后使用各种自动评估方法和人类信息的及清晰度得分来评估生成 NLE 的质量。

Abstract

Recent studies have exploited advanced generative language models to generate Natural Language Explanations (NLE) for why a certain text could be hateful. We propose the Chain of Explanation (CoE) Prompting method, using the heuristic words and target group, to generate high-quality NL

generative language models chain of explanation (coe) prompting method implicit hate speech blue score nle generation

发现论文，激发创造

评估 GPT-3 生成的针对仇恨性内容审核的说明

本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查，发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价，但不同提示策略会影响解释的说服力，可能会导致对内容是否仇恨的错误判断。因此，在内容审核中应谨慎使用大型语言模型 - generated 的解释。

May, 2023

ChatGPT 在解释隐含的仇恨言论方面是否比人类标注员更优秀？ChatGPT 的潜力和限制

通过设计激励聊天 GPT 生成简明自然语言解释的提示，本文研究了是否可以使用 ChatGPT 提供内含仇恨言论检测的自然语言解释，并通过与人类编写的自然语言解释的比较来评价其质量。我们讨论了 ChatGPT 在隐含性仇恨言论研究中的潜力和局限性。

Feb, 2023

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

具体情境下的自然语言解释

自然语言解释、预训练语言模型、情境感知的自然语言解释、提示工程方法、自动化评估分数是本论文研究的关键词和主题。

Aug, 2023

HARE：可解释的仇恨言论检测配有逐步推理

通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口，我们提出了一种新的仇恨言论检测框架 HARE，该方法使用模型生成数据相较于已有人工注释的基线，能够持续优于其他方法，并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。

Nov, 2023

场景和方法用于情境化的自然语言解释

利用大型语言模型，针对不同用户情境生成自然语言解释，并通过定量评估展示适应程度。我们收集了一个基准数据集，包括 100 个解释对象，每个对象都与针对三个不同受众类型（如教育工作者、学生和专业人员）的解释配对，使我们能够评估解释在特定信息需求和背景下让这些多样化群体（如学生、教师和家长）满意的程度。通过预训练语言模型，在不同大小的预训练语言模型上，我们考察了三类提示方法：基于规则的提示，元提示和上下文学习提示。我们发现：1）语言模型可以生成与目标情境更准确对齐的提示产生的解释；2）通过提示 “您是一个乐于助人的助手…” 来明确建模 “助手” 角色不是定位自然语言解释任务的必要技术；3）只有上下文学习提示能够帮助语言模型学习演示模板，但无法提高它们的推理性能。该基准数据集及我们的分析有助于未来生成情境化自然语言解释的研究。

Jun, 2024

多模态仇恨表情包分类

提出一种基于简单 Prompt 的预训练语言模型的分类方法，以解决针对具有文化背景的恶意表情包分类任务中，缺乏外部知识库提供文化信息的问题，并在两个公开的恶毒和冒犯表情包数据集上进行实验，其实验结果表明，PromptHate 能够实现高达 90.96 的 AUC，优于同类任务的最佳性能。

Feb, 2023

启发式驱动的类比链接引导：增强大型语言模型的文档级事件论证抽取

通过引入启发式驱动的类比链接方法，该研究致力于解决文档级事件论证抽取中的关键挑战，并展示了在提高适应性和准确性方面的显著改进。

Nov, 2023

利用自然语言解释提高自然语言推理的上下文学习鲁棒性

通过加上自然语言解释，人工智能模型在各种任务中有了显著提升，但在遇到对抗性输入时，效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性，并提出了 ChatGPT 的几个人工生成的自然语言解释来产生更多自然语言解释的新方法，表现更好。通过对五种常见的大语言模型进行评估，我们发现 ChatGPT 的几个人工生成的自然语言解释的 X-ICL 方法比 ICL 方法提高了 6% 以上。此外，我们还发现之前能有效提高 ICL 性能的提示选择策略，在鲁棒性评估中并不具有与 X-ICL 范式相称的效果。

Nov, 2023

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023