- ConU: 具有正确性覆盖保证的大型语言模型中的符合不确定性
通过从预测集构建的置信度条件中整合正确性对齐的不确定性准则,本研究在自然语言生成任务中,将确定性预测转化为严格的理论保证,从而解决了最近大型语言模型中的异构不确定性问题,并利用抽样不确定性测量方法提高了先前最先进的方法。通过在模型的非固定答 - ACL语言模型可以通过概率差异进行自我评估
通过证明大型语言模型在回答问题时,如果它们更为熟练,显示更均匀的概率分布,我们启发性地讨论了这个问题。在此基础上,我们提出了一种新的自我评估方法 ProbDiff,用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本 - 大型语言模型在自然语言生成任务中的系统评估
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处 - 强制生成模型退化:数据注毒攻击的力量
通过细粒度的实验,我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化,这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。
- X-Eval: 通过辅助评估方面的增强指令调整实现通用多方面文本评估
X-Eval 是一个两阶段的指导调优框架,通过自定义的用户视角对文本进行评估,提高了一个轻量级语言模型与人工判断的相关性。
- 自然语言生成的主动学习
本文是第一次系统地研究了主动学习在文本生成方面的应用,研究表明现有的主动学习策略在文本生成场景下效果不佳,无法持续超越随机示例选择的基准线。
- PairReranker: 自然语言生成的配对重排序
通过对三种自然语言生成任务的实证分析,提出了一种新的 NLG 后处理方法 PairReranker,并证明其能够显著提高性能及适用于 GPT-3。
- 神经文本生成的最佳 -$k$ 搜索算法
本文提出了一种平衡生成质量和多样性的确定性搜索算法,并在四个自然语言生成任务中进行了实验,结果表明该算法相较于强基准表现更具多样性和自然性,同时维持高生成质量。
- EMNLP不是所有的错误都是相等的:使用分层错误合成学习文本生成度量
本文提出利用迭代的错误合成与强度评分的新颖流程构建高度相关于人类判断的基于模型的指标 SESCORE,该指标无需人工注释,在多个不同的自然语言生成任务中优于所有现有的无监督指标,并且即使没有获得任何人工标注训练数据,SESCORE 也实现了 - EMNLPEdiT5:使用 T5 预热进行半自回归文本编辑
EdiT5 是一种新颖的半自回归文本编辑模型,可在比传统的序列到序列(seq2seq)模型更快地推理时,能够建模灵活的输入 - 输出转换。该模型将生成过程分解成三个子任务:标记、重新排序和插入。EdiT5 的性能比 T5 在低资源环境下更好 - ACL训练数据价值超你想象:一种简单有效的从训练数据中检索的方法
本文提出了一种简单的 REtrieving from the traINing datA (REINA) 方法,通过从训练数据中检索最相似的实例并与输入进行拼接来提高自然语言处理任务的性能,实验证明该方法在多个 NLU 和 NLG 任务中都 - 生成协作网络用于自然语言生成
本文介绍了一种使用协作式判别器架构来生成逼真文本样本的生成合作网络方法,并通过各种有效的解码方案实现了两项主要 NLG 任务的最优结果。
- EMNLP压缩、转换和创造:一个评估自然语言生成的统一框架
本文提出了一种统一的自然语言生成(NLG)任务评估度量方法,基于信息对齐的概念,通过设计可解释的度量标准并使用自监督模型实现了度量方法的操作化,结果表明所提出的统一设计度量方法在各种 NLG 实验中具有比现有度量方法更强的相关性。
- AAAI自然语言生成中的后门攻击防护
本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响,并提出了相应的防御策略。通过测试生成目标给定源的后向概率,能够有效地防御各种类型的攻击,并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的 - EMNLPDORB: 动态优化多重奖励的赌博机算法
本研究使用多臂赌博机方法自动优化多个利润指标,以最大化其在自然语言生成任务中的组合效益,并通过拟合两个带不同奖励结构的赌博机模型来证明其有效性。
- 通过标注和插入实现灵活的文本编辑
Felix 是一种灵活的文本编辑方法,利用双向上下文解码和自我监督预训练的思想,将文本编辑任务分解为标记子任务和插入子任务,通过指针机制和掩模语言模型设计非自回归模型,以在低资源和快速推理的情况下建模灵活的输入输出转换,在句子融合、机器翻译