- LMD3:语言模型数据密度依赖性
我们开发了一种基于训练数据密度估计的分析语言模型任务性能的方法。通过对有控制介入的细调数据进行释义实验,我们发现支持特定测试查询的训练分布的增加可导致密度的可测增加,这也是干预引起的性能增加的重要预测因素。通过预训练数据的实验,我们可以通过 - 参数高效的多样化语义转换:基于序列级知识蒸馏的方法
本研究通过使用大型语言模型(LLMs)并应用序列级知识蒸馏方法,开发了三种不同的模型用于释义领域中的改写任务,这些模型具有更快的推理时间,能够生成质量相当的多样化释义,并在人类评估中表现出仅有 4% 的性能下降。
- COLING任务导向的释义分析
通过文献综述和提出分类法,本研究对 25 个已知的改写(子)任务进行整理和组织。使用分类器识别给定改写实例适用的任务,发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误 - 通过自动爬取和对齐的句子对进行神经重述
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
- 信息伪装的有效改写方法
研究了信息伪装(ID)在计算伦理学中的作用,着重于文本改写的最佳实践,以防止在互联网上非自愿使用作者的帖子。提出了一种框架,通过迭代扰动作者帖子中的句子,并在搜索引擎中查询,欺骗 NeurIR 系统的搜索机制,成功实现 82% 的句子伪装, - EMNLP问答中的知识语料错误
通过使用大型语言模型对人类注释的黄金上下文进行改写,我们发现传统的问答系统在知识库错误方面存在缺陷,而改写后的文本在性能上有 10% 至 13% 的提高。
- 仅需演示:推进利用上下文学习进行攻击性内容转换
转述冒犯内容是一种比删除内容更好的选择,有助于提高在交流环境中的文明性。本文利用大型语言模型中的上下文学习来发展可用的转述器,通过有限数量的输入 - 标签对指导模型生成特定查询的期望输出,研究了演示数量和顺序、排除提示指令以及降低有毒性等关 - 大型语言模型上的简易提示增强:多源多目标的 EPA 方法
通过自动增强任务演示的方式,这篇论文提出了一种名为 EPA (Easy Prompt Augmentation) 的新方法,可以在改善模型性能的同时减少用户编写演示的工作量,并有效地提升自然语言理解(NLU)和自然语言生成(NLG)任务的性 - 神经机器翻译中的负面词汇约束
本文探讨了英文到捷克语神经机器翻译中的负面词汇限制。我们比较了基于修改解码过程或训练数据的各种方法,并在改写和基于反馈的翻译改进两项任务上进行了对比。我们还研究了这些方法在多大程度上 “回避” 了向模型提供的限制(通常以字典形式呈现),通过 - 什么是好的改写:自动评估是否有效?
汤姆的研究使用德国数据集对改写的质量进行了自动和专家语言学评估,以回答改写应该有多大的差异才能被视为可接受,以及是否可以仅使用自动化指标评估改写质量的问题。
- RADAR: 鲁棒的 AI 文本检测方法
RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text det - 评估文本蕴含模型的释义鲁棒性
本文介绍 PaRTE,一组 1126 个文本蕴含例子,用来评估模型是否对改写具有鲁棒性。文章指出,如果 RTE 模型真正理解语言,那么它们的预测应该在具有相同意义的输入之间保持一致。作者使用这个评估集合以确定 RTE 模型在对例子进行改写时 - ACL多词语无监督释义
提出了一种用于无监督多词表达式改写的方法,通过使用单语料库和预训练语言模型(无需微调),不需要使用任何外部资源,例如词典,并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。
- ACL评估问题生成需要更多参考文献
提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个(伪)参考答案进行评估,以更全面地评估 QG 技术潜力的方法。实验结果表明,使用多个参考答案进行 QG 评估比使用单个参考答案更为有效,并且更能与人类评估相符合。
- 不是所有指标都有罪:利用 LLM 改进 NLG 评估的修辞转换技术
本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的 - 针对非母语英语使用者的可解释人工智能写作助手
本研究通过对 15 个英语水平各异的非母语英语人士的访谈研究,发现他们在使用 AI 写作助手进行改写时往往无法正确评估其生成的文本,主要由于缺乏解释。为此,我们提出了四种用户界面设计,旨在通过提供解释来支持非母语英语人士更好地理解和评估 A - 通过噪声实现连贯性和多样性:基于结构感知去噪的自监督释义生成
本文提出了 SCANING,这是一个通过受控噪声注入进行释义的无监督框架,它着重于代数单词问题的释义,并进行了广泛的自动化和手动评估,从而提高了语义保存和产生不同释义方面的性能。
- ACL使用底部 - k 抽样和周期学习进行课程数据增强的释义
本文提出了一种用于课程数据增强(CDA)的新框架 PCC:利用底部 k 采样的改写和循环学习的课程数据增强,通过改写利用文本改写相似性作为课程难度度量标准,并建议通过循环学习策略多次通过课程。在少样本文本分类和对话生成方面的实验结果表明,P - 超越词级别的释义、文本蕴涵和语义相似度
本论文研究语言和计算方面在短语、从句、句子和段落之间可能存在的意义关系,特别关注了近义词替换、文本蕴涵、矛盾和语义相似性,并探讨了量化语义相似度的不同方法,以及自动化的近义词识别。
- 汉语成语转述
本文提出了中文成语改写(CIP)任务,以将包含成语的句子重新表述为不成语的句子并保留原本的意思,从而方便处理中文数据集和提高中文 NLP 任务的性能。本研究使用人与机器协作建立了一个包含 115,530 个句子对的大规模 CIP 数据集,并