CoCo: 在数据限制下利用对比学习增强一致性的机器生成文本检测

Dec, 2022

CoCo: 在数据限制下利用对比学习增强一致性的机器生成文本检测

CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data Limitation With Contrastive Learning

Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Yu Lan, Chao Shen

TL;DR本论文提出了一种名为 CoCo 的基于连贯性图和对比学习的模型，用于检测低资源情况下的机器生成文本；该方法采用预训练模型和图神经网络将文本表示为连贯性图，并使用改进的对比损失函数应对数据限制挑战，实验结果表明 CoCo 方法优于现有的最先进的方法。

Abstract

Machine-Generated Text (MGT) detection, a task that discriminates MGT from Human-Written Text (HWT), plays a crucial role in preventing misuse of text generative models, which excel in mimicking human writing style recently. Latest proposed detectors usually take coarse text sequence as input and output some good results by fine-tune →

machine-generated text detection linguistic coherence contrastive learning low-resource scenario pretrained models

发现论文，激发创造

机器生成文本本地化

该研究旨在识别机器生成的文本并对文档中的机器生成部分进行定位，以避免由于对部分新闻文章的机器生成篡改而导致整个文档的误导。通过利用上下文信息，该方法能够在多个句子同时预测其是否为机器生成，从而提高了性能。与之前的研究相比，该方法在 GoodNews、VisualNews、WikiText、Essay 和 WP 五个不同数据集上提高了 4-13% 的平均准确率（mAP）。

Feb, 2024

CoNT: 对比神经文本生成

本文提出了一种新的对比学习框架 CoNT，它从对比示例、对比损失和解码策略三个方面解决了对比学习在生成任务中使用的瓶颈问题，实验结果表明 CoNT 在机器翻译、数据摘要、代码注释生成等十个基准测试中都表现出优异的表现，特别是在摘要生成任务上达到了新的最好结果。

May, 2022

HU 参加 SemEval-2024 任务 8A：对比学习能否学习嵌入以检测机器生成的文本？

我们提出了一个基于对比学习的单一模型，通过数据增强和对比学习，在没有使用多个模型集合的情况下，达到与多模型相当的性能表现。

Feb, 2024

朝向连贯且凝聚的长文本生成

本文提出了一种新的神经语言模型，它具备两个神经鉴别器，可以在句子层面（内聚性）和段落层面（连贯性）提供反馈信号，并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明，相对于基线（基于双向 MLE 训练的复发关注神经语言模型），我们的方法有效改善了模型表现。

Nov, 2018

LLM 作为共同作者的挑战：检测 LLM 与人类混合大小写

大语言模型与机器生成文本（MGT）在新闻和教育等领域的广泛应用中出现了潜在的质量和信息完整性问题。本研究提出了混合文本形式 ——mixcase，并构建了 MixSet 数据集，旨在专门研究这些混合修改场景，并通过实验证明现有的 MGT 检测器在识别 mixcase 时存在困难，尤其是在处理微妙的修改和样式适应性方面。研究结果强调了为 mixcase 定制更细粒度的检测器的紧迫性，并为未来研究提供了有价值的见解。

Jan, 2024

MOCHA：基于认知角度的一种多任务训练方法，用于一致文本生成

本研究提出一种基于认知写作理论的新型多任务训练策略，为神经模型生成连贯文本提供辅助技能。在三个开放式生成任务中进行了广泛的评估，实验表明我们的模型在有限标注数据和全监督设置下都优于强基线模型，并且经过人工评价，显示我们的模型能够生成更加连贯的文本。

Oct, 2022

M4GT-Bench: 黑盒机器生成文本检测评估基准

通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench，本研究解决了识别和区分机器生成文本与人类生成文本的问题，包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。

Feb, 2024

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

大语言模型文本的成对比较扩展中的概念导向思路引导

利用生成型大型语言模型的模式识别能力，提出了一种文本缩放方法，该方法利用设计的提示生成概念特定的细分，将文本比较转变为模式识别问题，并使用 Bradley-Terry 模型估计一个规模，以测量 Twitter 上的情感言论。

Oct, 2023

重新思考自监督目标，用于可泛化的连贯建模

本文研究利用基本的神经模型架构，结合对比学习中的负采样和硬负采样策略以及大规模全局负采样队列的增强效应，在任务独立测试集上进行一致性模型的评估和下游任务的改进。结果表明，增加负样本密度和使用全局负采样队列结合硬负采样可以显著地提高模型的性能表现。

Oct, 2021