- 用 LM-Polygraph 为大型语言模型基准化不确定性量化方法
使用新的基准测试实现了对大规模语言模型在不确定性量化和归一化技术方面的评估,旨在解决其在文本生成任务中的不安全性和低质量输出等挑战。
- 关于文本生成中上下文学习的噪声鲁棒性
大型语言模型在文本生成任务中,噪声标注显著影响了上下文学习的性能,因此我们提出了一种名为本地困惑度排序(LPR)的简单有效方法,通过在语义空间中对邻居进行排序,以防止选择到不匹配的输入 - 标签对,同时保持原始选择方法的有效性。大量实验证明 - 从文本分类到生成的贝叶斯弱强弱强
当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时,本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展,模拟了人类意见的变异性。 - UFO: 一个用于评估大型语言模型事实性的统一灵活框架
大语言模型(LLMs)可能生成与人类知识不一致的文本,导致事实错误或产生虚构。为解决这些问题,本研究将可用的事实来源分类为人工书写证据、参考文献、搜索引擎结果和 LLM 知识,并提出了一种名为 UFO 的基于 LLM 的统一灵活评估框架,以 - Ouroboros:利用大型模型增强的推测解码
Ouroboros 构建了一个短语候选池,以提供给小模型的草稿生成,从而进一步提高初始草稿的效率和效果,在典型文本生成任务上,Ouroboros 相较于前向预测解码和推测解码分别实现了 1.9 倍和 2.8 倍的加速。
- 语言模型中的偏差:超越技巧测试,走向 RUTEd 评估
通过比较去上下文化测试和基于真实使用和具体效果评估的相关性,我们发现基于去上下文化测试结果选择最少偏见模型的情况与基于真实使用评估结果选择最佳性能模型的情况只有随机概率一样频繁。因此,我们得出结论,如果评估不基于真实使用,那可能无法有效减轻 - DRLC:来自 LLM 批评者的强化学习与稠密奖励
通过引入批评语言模型的框架,利用密集奖励对强化学习中的稀疏奖励进行补偿,本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性,实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提 - EMNLPLM-Polygraph:语言模型的不确定性估计
大型语言模型的不确定性估计方法 LM-Polygraph 可为文本生成任务提供可靠的响应,并为研究人员提供一致评估的基准,以帮助终端用户辨别可靠性。
- 可控多文档摘要:基于大型语言模型奖励的覆盖和连贯直观策略
使用内存高效的大型语言模型进行文本精炼有助于提高可阅读性,而在长文本输入的文本生成任务中,如多文档摘要,控制性是一个需要关注的问题。本文研究了一种用于多文档摘要的通用的可控方法,利用大型语言模型来提炼文本。具体来说,我们训练了一个可控的内容 - 进一步改进 PPO 算法:基于值导向的蒙特卡罗树搜索解码
通过将 MCTS 与 PPO 集成,在推断时生成自然语言文本,相较于仅使用 PPO 策略,PPO-MCTS 极大地提高了生成文本的优越性,减少了训练和测试之间的部分输出评分机制不匹配的问题,证明了搜索算法在与 PPO 进行对齐的语言模型上的 - Deliberate then Generate: 文本生成的增强提示框架
研究通过提出一种新的 “DTG” 提示框架来改善大型语言模型在自然语言生成任务中的表现,该提示框架在 20 多个数据集和 7 个文本生成任务中进行了广泛实验,表明 DTG 方法在多项文本生成任务中表现卓越,优于现有的提示方法,并提供了有关其 - 上下文学习如何帮助提示调整?
该研究通过实验测量了几种不同的文本生成任务原始模型的表现,对比分析了几种参数有效的适应方法(如提示调整、上下文学习和指导性提示调整),并通过 IPT 探究了这些方法之间的交互作用和优缺点。
- GPTScore:任意评估
本文提出了一种新的评估框架 GPTScore,利用生成预训练模型的崭新能力对生成的文本进行评分,实验结果表明该方法能够高效地实现对文本的定制化、多方面评估,不需要注解样本。
- 文本摘要中人工智能交互设计空间的映射
本文旨在从以人为中心的角度出发,探讨在自动文本摘要系统中人们在与 AI 交互时的角色、经验和需求,设计文本摘要原型来帮助用户理解他们与 AI 的关系,进而提出设计上的考虑,以期提高用户体验。
- ACL神经半 - Markov CRF 用于单语词对齐
提供了一种新的神经半 - Markov CRF 对齐模型,它通过可变长度跨度统一了单词和短语对齐,通过人工注释创建了一个新的基准,显示出在现实设置下评估单语言对齐模型的性能, 并证明了该模型在自动文本简化和句对分类任务中具有良好的普适性和实 - 使用适配器将 BERT 整合到并行序列解码中
本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题,并在神经机器翻译任务上验证了该方法的有效性。
- VizSeq:一款针对文本生成任务的可视化分析工具包
本文介绍了一个名为 VizSeq 的工具包,它支持对文本生成任务进行系统实例级和语料级评估,并提供了多种可视化方式。其中包括常见的基于 n-gram 的指标以及最新的基于 BERTScore 的嵌入式指标。