ConDA: 基於對比學習的 AI 生成文本檢測的域適應

ACLSep, 2023

ConDA: 基於對比學習的 AI 生成文本檢測的域適應

ConDA: Contrastive Domain Adaptation for AI-generated Text Detection

Amrita Bhattacharjee, Tharindu Kumarage, Raha Moraffah, Huan Liu

TL;DR利用对比性领域自适应框架 ConDA，本研究解决了在检测人工智能生成的新闻文本中未标注文本数据的问题，并取得了平均性能提升 31.7％，与完全监督的检测器相差不到 0.8％的结果。

Abstract

large language models (LLMs) are increasingly being used for generating text in a variety of use cases, including journalistic news articles. Given the potential malicious nature in which these LLMs can be used to generate →

large language models disinformation ai-generated text unsupervised domain adaptation conda

发现论文，激发创造

学习域不变特征进行上下文外新闻检测

提出了一种基于对比学习和最大均值差异的测试时间自适应的 Contrastive Domain Adaptation with Test-Time Adaptation (ConDA-TTA) 方法，用于多模态脱离上下文新闻检测问题，实验证明该方法在 7 个领域自适应设置中的 5 个上胜过基线方法，F1 指标有 2.93% 的提升，准确性提高了 2.08%。

Jun, 2024

ConDA: 基于正则化域连接的 LiDAR 分割无监督域自适应

本文提出了一种基于联合监督信号自训练的 LiDAR Segmentation 领域自适应方法 ConDA，通过构建源域和目标域的中间领域并采用熵聚合器和抗锯齿正则化方法，实现了有效减少噪音伪标签对模型训练的负面影响，并在减轻域间差异方面取得了非常显著的提升。

Nov, 2021

EAGLE: 一个面向人工智能生成文本检测的领域泛化框架

通过结合自我监督对抗训练和域泛化的特征学习方法，提出了一个领域泛化框架 EAGLE，可以在未知目标生成器中检测到人工智能生成的文本，包括最新的 GPT-4 和 Claude，检测得分与完全监督的检测器相差不超过 4.7%。

Mar, 2024

SemEval-2024 任务 8：多领域机器生成文本检测技术的综合分析

本论文介绍了我们在 SemEval2024 Task8 中用于检测跨各个领域的机器生成文本的方法，包括统计、神经网络和预训练模型方法，并通过深入的错误分析评估了这些方法的有效性。在单语和多语境下，我们的方法在子任务 A 单语上获得 86.9％的准确率，在子任务 B 上获得 83.7％的准确率。此外，我们还强调了未来研究中的挑战和重要因素。

Mar, 2024

在上下文中适应：通过上下文中学习的检索增强域适应

通过无监督的领域自适应方法以及在上下文学习环境下的查询元素子集检索策略，我们研究了适应语言模型从源领域到目标领域的问题，以学习目标领域分布并通过语言建模实现任务信号的适应，从而在情感分析和命名实体识别任务中实现了显著的性能提升。

Nov, 2023

HU 参加 SemEval-2024 任务 8A：对比学习能否学习嵌入以检测机器生成的文本？

我们提出了一个基于对比学习的单一模型，通过数据增强和对比学习，在没有使用多个模型集合的情况下，达到与多模型相当的性能表现。

Feb, 2024

BERT 无监督领域自适应的知识蒸馏

利用 BERT 预训练语言模型，结合领域适应性方法和知识蒸馏算法，提出了一种简单而有效的无监督领域适应方法，称为对抗适应与蒸馏，在 30 个领域对跨领域情感分类的任务中取得了最先进的性能。

Oct, 2020

无监督领域自适应语言建模

本文中，我们探索了使用预训练的语言模型进行下游任务的无监督领域适应（UDA）。我们提出了 UDALM，一种微调过程，使用混合分类和蒙面语言模型损失，可以以强健和样本高效的方式适应目标域分布。我们的实验表明，使用混合损失训练的模型的性能与可用目标数据的数量成比例，并且可以有效地用作 UDA 训练中的停止准则。此外，我们还讨论了 A 距离和目标误差之间的关系，并探索了域对抗训练方法的一些局限性。我们的方法在 Amazon 评论情感数据集的 12 个领域对上进行评估，得到了 91.74％的准确率，比最先进技术提高了 1.11％的绝对值。

Apr, 2021

通过发现潜在领域来提升域自适应

本文提出了一种基于深度卷积神经网络的领域自适应方法，在自动发现图像数据集中的潜在领域并利用此信息来学习鲁棒的目标分类器方面取得了显著优于现有方法的结果，其中引入了两个主要组件，一个是自动计算源样本分配到潜在领域的支路，另一个是利用领域成员信息对齐 CNN 内部特征表示分布的新型图层。

May, 2018

LLM-Detector: 优化 AI 生成的中文文本检测的开源 LLM 指令调优

本文提出了 LLM-Detector 方法，通过 LLM 指导和解决文档级和句子级的文本检测问题，该方法在句子级和文档级文本检测上明显优于基准方法，并展示了强大的泛化能力。

Feb, 2024