一种基于 ASP 的数据到文本处理的 xAI 方法
该论文介绍了自动化组合 Answer Set Programming(ASP)规范的第一步,包括基于图问题规范的数据集的设计与评估、利用神经机器翻译将自然语言转化为控制自然语言语句,以及通过 CNL2ASP 工具将控制自然语言语句转化为 ASP 代码,实验证实了该方法的可行性。
Mar, 2024
通过对荷兰语文本简化进行实证研究,我们提供了一个可配置的文本简化流水线的设计和实现,以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块,并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战,这是对荷兰语文本简化探索的第一步,并为未来的研究和实践提供了启示。
Aug, 2023
本教程关注于文本生成,这是一类自然语言生成任务,它以一段文本作为输入,然后生成一篇按照某些特定标准(如可读性或语言风格)改进的修订版本,同时保留原版文本的大部分含义和长度。
Oct, 2023
研究采用新颖的数据生成文本的方式,对当前的文本生成方法进行了探究,并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明,这些模型产生流畅的文本,但未能令人信服地近似人类生成的文档,甚至模板化的基线方法在某些指标上超过了这些神经模型,尽管复制和重构扩展会导致明显的改进。
Jul, 2017
本文针对科学文献中 AI 生成的文本与人类编写的文本之间的差距进行了探讨,提出了一个通过语法、语义和语用来区分 AI 文本的框架,进而将提取到的特征用于分析两种不同类型的内容,发现 AI-generate 的科学文本在深度和总体质量方面还有待提高,并存在事实性问题等方面的差距,同时我们发现 AI-generate 的科学文本和人类编写的科学文本之间存在 “写作风格” 方面的差距,从而提出一些模型和分布无关的特征来用于其他领域的检测任务,这些研究结果有助于指导 AI 模型的优化,以产生高质量的文本,同时也有助于解决相关的伦理和安全问题。
Jan, 2023
本论文考虑数据到文本生成的任务,着重提出了一种生成长篇文章的神经模型,增加了计划组件来组织高层次信息,在结构化变分模型的帮助下逐步推理出潜在计划,从而生成文本。在 RotoWire 和 MLB 两个数据到文本基准测试中,本模型表现优于基准模型,并且在训练数据有限的情况下具有较高的样本效率。
Feb, 2022
解释性在自然语言处理中的必要性随着大型语言模型的突出地位的不断提升而增加。该论文概述了在属性解释性方法的开发和评估过程中出现的 17 个挑战,包括词条化、定义解释相似性、确定词条重要性和预测变化度量、人类干预的水平以及适合的测试数据集的创建。该论文展示了如何将这些挑战交织在一起,并提出了发展概率词级解释性方法以及将人类纳入解释性流程中来得出关于解释性方法的可靠结论的新机会。
May, 2024
本文介绍了多种扩展序列 - 序列模型的方法,旨在解决从结构化数据中生成流畅自然语言的问题,特别关注潜在内容选择过程的变体,包括复制注意力和覆盖解码。我们提出了一种基于多样集成的训练方法,以鼓励模型在训练过程中学习不同的句子模板,并通过比较其生成的文本在五个自动度量标准和人类评估中的结果,表明这些技术可以提高生成文本的质量。
Oct, 2018
本文提出了一种神经网络体系结构,它在不牺牲端到端训练的前提下,结合了内容选择和计划,通过将生成任务分解为两个阶段,根据数据记录生成内容计划并生成文档,在自动化和人类试验中都取得了优越表现,从而提高了最近发布的 RotoWire 数据集的最新技术。
Sep, 2018
通过文本生成技术,使用编码器 - 解码器生成模型来增加受训人工智能代理的训练数据,从而实现更快地开发新功能。该方法需要直接优化,适用于有限的数据,并明显优于以往的受控文本生成技术。此外,生成的数据用作外在意图分类任务的附加训练样本,增强了低资源情况下高达 5%绝对 f-score 性能的表现,证实了该方法的实用性。
Oct, 2019