RAFT：针对少样本滥用语言检测的理由适配器

Nov, 2022

RAFT：针对少样本滥用语言检测的理由适配器

RAFT: Rationale adaptor for few-shot abusive language detection

Punyajoy Saha, Divyanshu Sheth, Kushal Kedia, Binny Mathew, Animesh Mukherjee

TL;DR研究旨在通过使用 RAFT (Rationale Adaptor for Few-shoT classification) 来检测网络社交媒体中的恶意语言。该方法使用多任务学习设置联合学习合理性、目标和标签，建立了两种合理性集成的 BERT-based 架构。在五个不同的虐待性语言数据集上，与基线模型相比，RAFT-based 模型在少量样本分类方面的性能提高了约 7％的宏 F1 分数，并在可信性方面胜过了 LIME / SHAP-based 方法。

Abstract

abusive language is a concerning problem in online social media. Past research on detecting abusive language covers different platforms, l

abusive language online social media few-shot training rationale detection bert-based architecture

发现论文，激发创造

利用现有数据解决少样本辱骂内容检测问题

本文提出了一种两步法的方法，使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习，再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能，并且可以在不同语言中实现跨语言识别。

May, 2023

RAFT: 一个现实世界的少样本文本分类基准

该研究论文讨论预训练的语言模型在少量数据情况下完成自然语言处理任务的表现，提出了一种新的用于测量模型在真实世界中应用的少量样本任务的基准测试 RAFT，这个基准测试展示了当前技术存在的困难和挑战，虽然一些分类任务对于普通人来说也很困难，但普通人在这些任务上的表现超过了 GPT-3 模型。

Sep, 2021

适应领域特定 RAG 的语言模型 RAF

在这篇论文中，我们提出了一种名为检索增强微调 (RAFT) 的训练方法，它能够提高模型在领域内回答问题的能力，并处理无关文档干扰，从而提升大规模语言模型的性能。

Mar, 2024

全面检测滥用内容！走向普适的滥用语言检测模型

本文中我们介绍了一个名为 MACAS 的新型通用虐待性语言检测框架，该框架能够解决跨不同领域的多种虐待性语言任务，其中使用了多角度虐待性语言嵌入和文本图嵌入分析用户的语言行为，并使用了交叉注意力门机制来有效处理多方面的虐待语言，并在 7 个 ALD 数据集上进行了评估，结果表明我们的 ALD 算法在多个领域的虐待性语言问题上表现优异，可以与当前六种最先进的 ALD 算法相媲美甚至超越。

Oct, 2020

超越检测：揭示滥用语言模型中的公平性漏洞

本研究调查了对滥用语言检测中公平性和检测性能的潜在破坏力。在一个动态而复杂的数字世界中，探索这些检测模型对敌对公平性攻击的脆弱性，以提高它们的公平性鲁棒性至关重要。我们提出了一个简单而有效的框架 FABLE，利用后门攻击，因为它们允许对公平性和检测性能进行有针对性的控制。FABLE 探索了三种类型的触发器设计（即罕见的、人工的和自然的触发器）以及创新的采样策略。具体而言，对手可以将触发器注入到少数群体中具有被偏好结果的样本（即 “非滥用”），并翻转其标签为不被偏好的结果，即 “滥用”。对基准数据集上的实验证明了 FABLE 在滥用语言检测中攻击公平性和实用性的有效性。

Nov, 2023

基于大型语言模型提取理由的可解释仇恨言论检测

为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

Mar, 2024

双师自学习的少样本理由生成

本文介绍了一种自我训练方法，利用有标记和无标记数据进一步改进少样本模型的效果，并提出了一种新的损失函数 Masked Label Regularization（MLR），以促进解释与预测标签之间的紧密联系。在三个公共数据集上的评估表明，所提出的方法在建模任务标签和生成忠实的解释方面是有效的。

Jun, 2023

Few-shot 合理化自我训练：教师解释帮助学生进行 Few-shot NLU

利用自训练语言模型进行多任务教师 - 学生框架，在有限的任务特定标签和理由下，通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征，显著提高了神经模型的性能，特别在低资源环境中表现出有效性。

Sep, 2021

通过合成对比论证的检索增强事实验证

通过对比论证综合检索增强的事实验证 (RAFTS) 方法能有效检索相关文档作为证据，并从不同角度评估论证，结合信息丰富的上下文示例作为先验，能在没有复杂提示的情况下显著改善受监督和 LLB 基线，且在相对较小的 LLB 上表现超过基于 GPT 的方法。

Jun, 2024

聚焦、属性和合理化：朝着安全可靠的 AI 迈进

提出了一种名为 FARM 的新型框架，利用外部知识来生成可靠的理由，在安全领域中结合了关键的重要特性，旨在帮助干系人管理其系统的风险，为消费者安全提供具体保障。

Dec, 2022