- 使用敏感领域数据进行安全训练:利用数据分割减轻链接攻击
使用破碎的数据取代全文本,对文本生成模型进行细化以减少敏感信息泄露和链接攻击的风险,并且得到与完整数据训练相当的分类结果。
- COLING学术复杂性转化为公众叙述:面向科学新闻报道生成的数据集
科学新闻报道的自动生成提高了学术洞察的可访问性,本文通过对一组学术出版物与相应科学新闻报道的平行集合进行广泛分析,突出了两者在易读性和简洁性上的差异,并使用先进的文本生成模型对数据集进行了基准测试,为进一步探索科学新闻报道的自动生成奠定了基 - COLINGASEM:通过基于注意力的情感建模增强聊天机器人的共情能力
提出了一种通过采用多个编码器,在情感分析的基础上进行情绪分析,从而在开放领域聊天机器人中生成流利而相关的共情回应的新型解决方案。
- 文本生成的标签有效模型选择
DiffUse 是一种高效的方法,可在候选文本生成模型之间做出明智决策,降低了所需的偏好注释数量并提高了评估可靠性。
- AAAI多标签文本分类的组合泛化:一种数据增强方法
通过创建独特的数据集,评估现有多标签文本分类模型对复杂概念的组合泛化能力,在此基础上引入了数据增强方法,利用两种创新的文本生成模型提高分类模型对组合泛化的能力。实验证明,该数据增强方法显著提升了分类模型在我们的基准测试中的组合泛化能力,两种 - 基于拓扑数据分析和滑动窗口技术的人工文本边界检测
通过使用不同的方法和特征,我们提出了一种基于 RoBERTa 模型和冻结语言模型嵌入特征的新方法,能够超过人类准确度水平和先前考虑的基准,在真实或假文本基准测试上取得更好的结果,并且分析了各种设置下所有提出分类器的鲁棒性以及对人工文本边界检 - 用推理生成众伦理判断的 AI 工具
使用 AmITheAsshole (AITA) 社交媒体平台上的文章作为数据集,利用最先进的 seq2seq 文本生成模型生成清晰的道德观点和建议,从而评估其在道德判断方面与人类的相似性。
- 误差范数截断:对文本生成模型进行数据噪声下的鲁棒训练
我们提出了一种名为 Error Norm Truncation (ENT) 的鲁棒性增强方法,通过截取噪声数据来更准确地评估数据质量,该方法考虑了非目标标记的分布,通过在语言建模、机器翻译和文本摘要等方面的综合实验证明,将 ENT 应用于文 - AuTexTification 在 IberLEF 2023 上的概述:多领域机器生成文本的检测和归因
本文介绍了 IberLEF 2023 研讨会中 AuTexTification 共享任务的概述,其中包括两个子任务:子任务 1 要确定文本是人工撰写还是由大型语言模型生成,子任务 2 要将机器生成的文本归属于六个不同的文本生成模型之一。我们 - 超越现实:生成智能在元宇宙的关键角色
这篇研究论文通过全面探索生成式人工智能技术如何塑造元宇宙,将其转变为一个动态、身临其境和互动的虚拟世界,提供了未来元宇宙的指南,并向读者展示了如何利用生成式人工智能的力量创造沉浸式虚拟世界。
- ACL神经文本生成的显式句法指导
我们提出了一种基于句法树的语法引导生成模式,通过解码过程的两个部分:(1)对给定源句子中词汇化的句法上下文中的每个成分预测填充文本;(2)映射和扩展每个成分以构建下一级语法上下文以生成自然语言文本,并在重述生成和机器翻译上进行了实验。与自回 - ACL语言建模中公平与隐私之间的权衡
本研究探讨在训练文本生成模型时如何同时兼顾隐私保护和去除社交偏见的问题,经实验证明,保护隐私的同时也会使分类任务中的偏见加剧,为了在双方兼顾的情况下提高模型的效用,在损失一些隐私保护的基础上,通过去偏增强模型可以达到最优化。
- WeCheck:基于弱监督学习的强事实一致性检查器
本文提出了一种弱监督框架 WeCheck,通过聚合多个资源进行训练,提高了文本生成模型的真实性度量。在多项任务上进行的综合实验表明,WeCheck 在 TRUE 基准测试中的表现优于现有的最先进方法,平均提高了 3.4%。
- ACLCHARD: 临床健康感知跨维度文本生成模型推理
介绍了 CHARD:跨尺度临床健康知识驱动的推理模型,利用文本生成模型生成关于多种健康相关情况的多维自由文本说明。通过使用 BART 和 T5 进行数据增强,在自动、人工和定性分析方面进行广泛实验,提出了一个 52 种健康问题的说明数据集: - COLINGSynSciPass: 检测科学文本生成的合适用途
该研究提出了对机器生成文本进行检测的方法,通过标记不同种类的技术使用,提高了模型的泛化性能,为科学领域的手稿审查提供了一种更加灵活的方式,但现有数据仍然有限,仍需进一步研究。
- DIALOG-22 RuATD 生成文本检测
该论文介绍了一种基于注意力机制的预训练模型的集成方法,用于对生成文本进行侦测、二分类和多分类,并在二分类任务中获得了 0.82995 的准确度得分,在多分类任务中获得了 0.62856 的准确度得分。
- 浪漫计算
本文比较了各种文本生成模型在写作早期英国浪漫主义诗歌方面的能力,通过系统测试和 GRUEN 评估指标,发现变压器模型的质量明显优于递归神经网络模型,并随着参数大小的增加而进一步提高。
- 一种基于 Zipf 定律的从文档中提取实体的方法
本研究提出了使用 Zipf 定律来解决文本中出现的目录不平衡问题,通过文本生成模型,将文档中常见和少见的实体词汇分类,标记少见实体,并在人工设计规则的帮助下,对工业安全技术文档中的实体进行提取,并通过实验结果证明该方法的有效性。
- FeTaQA:自由形式表格问答
本篇论文介绍了 FeTaQA 数据集,该数据集包含 10K 个基于维基百科的 {表格,问题,自由形式答案,支持表格单元格} 对,可以用于进行表格问答系统的复杂推理和信息集成;并提出了一个基于语义解析的 QA 系统和一个基于大型预训练文本生成 - ACL基于信念的论证主张生成
通过研究基于观点生成争议性主张的任务,我们试图通过将人们的先前信仰编码到争论性文本中来生成针对信仰进行定制的论证性声明,我们通过自动评估和手动研究来评估该方法的有效性和限制性。