本文介绍了一种名为 DiVeRSe 的方法,通过增加提示多样性和引入验证器来进一步提高大型语言模型的推理能力,成功地在八个基准测试中的六个上达到了最新的最先进性能,其中包括 GSM8K。
Jun, 2022
通过改变输入提示的多样性,并借助多种演绎方法,我们提出的 DIV-SE 和 IDIV-SE 方法在不改变解码过程的前提下,通过多种推理调用和单次推理调用中的多样提示,在固定生成预算的情况下,在多个推理基准和最新的计划基准上,优于现有基线,并在最有挑战的 4/5 Blocksworld 任务上超过先前报告的最高准确率至少 29.6 个百分点,从而改进了 LLM 推理的准确性 - 成本权衡的帕累托前沿。
Oct, 2023
本文提出了一种基于点互信息的新的响应语义度量指标,并将其应用于深度学习生成模型生成对话的评估和后续的响应生成过程中,可以获得更可信和真实的自动响应。
May, 2023
本文介绍了 DiversiGATE,一个统一的框架,它 consolodates 了 LLM 验证的各种方法,并且提出了一种符合 DiversiGATE 框架的新型 SelfLearner 模型,可以从自己的输出中学习并不断改善性能。通过实验,表明 SelfLearner 的有效性,对 GSM8K 基准测试的改进达到了 54.8%-> 61.8%。
Jun, 2023
采用 CLIP 特征的负高斯交叉互信息度量被提出,用于评估 text-to-image generation 和 image captioning 任务的机器智能水平,与竞争指标相比具有一致性、样本简约性和鲁棒性,并在多模态表示学习中得到了广泛的应用。
May, 2022
本文介绍了一种基于相互信息最大化的神经机器翻译模型,该模型使用一种简单的重新排序方法和一种增加 N-best 列表多样性的解码算法,应用于 WMT 德英和法英任务中,该模型能够在标准 LSTM 和基于注意力的神经机器翻译体系结构上提供持续的性能提升。
Jan, 2016
建议使用分治程序来引导大型语言模型(LLM),以解决存在中间错误和欺骗内容的任务,可以提供更好的性能。
Feb, 2024
我们提出了一种方法,通过在标记级别交替生成来教授多个大型语言模型(LLM)进行协作。我们将下一个标记由哪个 LLM 生成的决策建模为潜在变量。通过在潜在变量模型下优化训练集的边际似然,基础 LLM 自动学习何时生成自己,并在需要时调用其中一个 `` 助理 '' 语言模型进行生成,无需直接监督。解码过程中的标记级别协作允许以适应特定任务的方式融合每个模型的专长。我们的协作解码在跨领域设置中特别有用,其中广义的基础 LLM 学习调用领域专家模型。在指令遵循、领域特定问答和推理任务中,我们展示了联合系统的性能超过各个模型。通过对学习到的潜在决策进行定性分析,我们展示了使用我们方法训练的模型呈现了几种有趣的协作模式,例如模板填充。我们的代码可在此 URL 找到。
Mar, 2024
通过对点对互信息的概念提出了 PMI-Masking,该结构代替了以往不合理的随机掩码方法,实验结果表明在预训练的效率和下游任务性能上有所提高
Oct, 2020
该研究介绍了一种新的学习语言模型的方法,通过训练模型估计词 - 上下文点间互信息(PMI),并通过 PMI 在测试时求出所需的条件概率。
Jul, 2017