HANSEN:人工智能和人类口语文本的作者分析基准
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
社交媒体 AI 检测(SAID)是一个用于评估实际社交媒体平台上 AI 文本检测模型能力的新基准,该研究表明标注者可以通过 96.5% 的平均准确率区分 AI 生成文本和人工生成文本,为今天广泛受 AI 影响的环境下重新评估人类识别 AI 生成文本的能力提供了必要性。此外,作者提出了一个基于用户信息和多个回答进行 AI 生成文本检测的新挑战,实验证明在实际社交媒体平台上进行检测任务相较于传统模拟的 AI 文本检测更具挑战性,但用户导向的 AI 生成文本检测可显著提高检测准确率。
Oct, 2023
本研究提出了一种方法来准确区分 AI 生成和人工撰写的书评,通过使用迁移学习,该方法能够在不同主题上识别生成的文本,并提高对写作风格和词汇变化的检测能力。实验结果表明,能够检测文本的原始来源,达到了 96.86% 的准确率。为了确保人工生成内容的完整性和真实性,扩大对大型语言模型在文本识别方面的能力和限制的理解对于有效地应用类似的模型以及确保内容的整体和真实性将是有价值的。
May, 2024
这项研究旨在调查 ChatGPT 和人类写作之间的语言特征差异,发现 AI 生成的文本在多个语言特征上与人类写作有显著差异,强调了整合自动化工具进行有效语言评估以减少数据分析的时间和工作量的重要性,并强调了增强培训方法以提高 AI 生成更接近人类文本的能力的必要性。
Jul, 2024
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023
采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对,通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了 N-best 列表中缺失的标记,提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。
Sep, 2023
通过实证分析大型语言模型(LLMs)的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯,为神经网络作者归属提供经验性洞见,为应对 AI 生成的错误信息的威胁铺平道路。
Aug, 2023
该研究论文介绍了谁是这篇文章作者(AA)和作者验证(AV)这两种方法,针对 AA/AV 数据集和评估指标的标准化与基准评估并评估了八种方法,其中传统的 Ngram-based 模型在 5 个 AA 任务中表现最佳,而 BERT-based 模型则在另外两个任务和 AV 任务中表现更好。通过使用 hard-negative mining,AV 方法可以作为 AA 方法的有竞争力的替代品。
Sep, 2022
近期,为人 - 音频交互所提出的指令遵循型音频语言模型引起了广泛关注。然而,由于缺乏评估以音频为中心的交互能力的基准,这一领域的发展受阻。本文引入了 AIR-Bench(音频指令评测基准),这是首个旨在评估音频语言模型在理解各种类型音频信号(包括人声、自然声音和音乐)以及在文本格式下与人类互动方面的能力的基准。AIR-Bench 包括两个维度:基础和对话评测。通过实验证明,使用 GPT-4 评估生成的假设得分与人工评估结果之间存在高度一致性。通过评估结果揭示现有 LALMs 的局限性,AIR-Bench 可以为未来研究方向提供启示。
Feb, 2024