使用少样本推理检测合成歌词
本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型,能够在没有旋律 - 歌词对齐数据的情况下,通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。
May, 2023
通过使用大型语言模型生成合成数据,研究了其在帮助执行与在线赞助内容披露相关的法律要求方面的潜力。通过评估生成的合成标题的真实性和对未公开广告的识别训练效果,发现真实性和实用性目标之间可能存在冲突,并且即使合成帖子在个体上看起来逼真,它们在整体上缺乏多样性、主题连贯性和真实的用户互动模式。
Mar, 2024
本研究提出两个数据集,一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集,评估数据集的质量,难度以及分类模型的区分能力。
Feb, 2022
综述了大规模语言模型(LLMs)生成内容检测的现有策略和基准,并指出该领域的关键挑战和前景,提倡采用更加适应性和稳健的模型来提高检测准确性,以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究,旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考,以保护数字信息的完整性。
Oct, 2023
本文介绍了受控产生合成文本的方法,以解决政治科学家在使用受监督文本模型方面面临的挑战。作者用三个应用程序证明了合成文本的实用性,包括生成描述乌克兰战斗的虚拟推文,为训练事件检测系统的合成新闻文章,以及训练句子级民粹主义分类器的多语言语料库。
Mar, 2023
比较了八种传统机器学习算法来区分机器生成数据和人类生成数据,结果表明传统方法在识别机器生成数据方面具有较高准确度。机器生成的文本相比人类生成的内容更短且词汇较少,而特定领域相关关键词可能导致这种高准确度,通过 word2vec 等深层次词表示可以捕捉微妙的语义差异。同时,可读性、偏见、道德和情感对比显示出机器生成内容与人类生成内容的明显差异,研究为机器生成内容在各个领域的进展能力和挑战提供了有价值的见解。
Mar, 2024
比较分析了计算模型和人类感知中的歌词相似性,发现基于预训练 BERT 模型嵌入、歌曲音频和音素特征的计算模型能够准确表示感知中的歌词相似性,这一发现为相似性推荐系统的发展提供了伪标签和客观评估指标。
Apr, 2024
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023