使用少样本推理检测合成歌词

Jun, 2024

Detecting Synthetic Lyrics with Few-Shot Inference

Yanis Labrak, Gabriel Meseguer-Brocal, Elena V. Epure

TL;DR通过对高质量合成歌词进行综合定量评估，我们基于 LIM2 模型构建的最佳 few-shot 检测器，在区分人工创作和机器生成的内容方面超越了样式和统计方法，并且对新艺术家和模型具有良好的泛化能力，同时有效地检测后期生成的改写。

Abstract

In recent years, generated content in music has gained significant popularity, with large language models being effectively utilized to produce human-like →

generated content music lyrics content detection few-shot detector

发现论文，激发创造

无监督的旋律引导歌词生成

本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型，能够在没有旋律 - 歌词对齐数据的情况下，通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。

May, 2023

基于风格表示的机器生成文本的少样本检测

利用人类文本估计的写作风格来区分人类作者和机器作者，以及预测给定文档由哪个语言模型生成。

Jan, 2024

InstaSynth：利用 ChatGPT 生成合成 Instagram 数据的机遇与挑战，用于赞助内容检测

通过使用大型语言模型生成合成数据，研究了其在帮助执行与在线赞助内容披露相关的法律要求方面的潜力。通过评估生成的合成标题的真实性和对未公开广告的识别训练效果，发现真实性和实用性目标之间可能存在冲突，并且即使合成帖子在个体上看起来逼真，它们在整体上缺乏多样性、主题连贯性和真实的用户互动模式。

Mar, 2024

学术出版物中自动生成文本检测基准语料库

本研究提出两个数据集，一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集，评估数据集的质量，难度以及分类模型的区分能力。

Feb, 2022

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023

用于监督文本分析的合成文本

本文介绍了受控产生合成文本的方法，以解决政治科学家在使用受监督文本模型方面面临的挑战。作者用三个应用程序证明了合成文本的实用性，包括生成描述乌克兰战斗的虚拟推文，为训练事件检测系统的合成新闻文章，以及训练句子级民粹主义分类器的多语言语料库。

Mar, 2023

MUGC: 机器生成与用户生成内容检测

比较了八种传统机器学习算法来区分机器生成数据和人类生成数据，结果表明传统方法在识别机器生成数据方面具有较高准确度。机器生成的文本相比人类生成的内容更短且词汇较少，而特定领域相关关键词可能导致这种高准确度，通过 word2vec 等深层次词表示可以捕捉微妙的语义差异。同时，可读性、偏见、道德和情感对比显示出机器生成内容与人类生成内容的明显差异，研究为机器生成内容在各个领域的进展能力和挑战提供了有价值的见解。

Mar, 2024

歌词相似性感知的计算分析

比较分析了计算模型和人类感知中的歌词相似性，发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性，这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。

Apr, 2024

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

机器生成文本的检测：文献综述

研究概述了语言模型产生的虚假文本、媒体关注度、自然语言生成、社会意义等关键词，同时探索了机器产生文本的趋势和更大的社会影响。

Jan, 2024