带有 λ 回报的未校正最小二乘时序差分的补充材料
大型语言模型对于时间信息的推理和保留能力仍然有限,本论文通过在一个大规模时间数据集(TempUN)上实验,揭示了在时间保留和推理能力方面存在的显著局限。有趣的是,闭源模型更频繁地显示出知识缺口,可能表明在不确定性意识和错误响应之间存在折衷。此外,探索各种微调方法并没有带来显著的性能提升。
Feb, 2024
通过时间参照等方法来完成词汇语义变化检测,比传统的向量空间对齐方法能够更准确地控制误差。在使用时序参照的 Skip-gram 负采样架构和以往方法进行对比后,实验证明该方法在一个合成任务和一个人工测试集上的性能更佳。同时,我们介绍了一种模拟词汇语义变化并系统性地控制可能偏见的方法。
Jun, 2019
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制,针对三个流行的时间问答数据集,我们发现大型语言模型在关于过去和新信息的详细问题上表现较差,存在多个时间错误,我们的分析有助于理解大型语言模型的局限性,并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。
Jan, 2024
我们提出了一种从专家示范中发现技能的算法,该算法首先利用大型语言模型对轨迹进行初步分割,然后采用层次变分推理框架结合语言模型生成的分割信息,通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡,我们引入了一种基于最小描述长度原则的新辅助目标,有助于指导这一技能发现过程。我们的结果表明,使用我们的方法装备的代理能够发现有助于加速学习的技能,并在 BabyAI(一个网格世界导航环境)以及 ALFRED(一个家庭仿真环境)的新长期任务中胜过基线技能学习方法。
Feb, 2024
本研究提出了一个针对时态推断的日语 NLI 基准 Jamp,用于评估单语 / 多语言模型的泛化能力;在评估中发现,语言模型在某些特定的语言现象,例如习惯性表达中,存在应对困难,因此有必要研究跨语言的有效 NLI 模型。
Jun, 2023
该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2,通过使用预训练的大型语言模型,设计了一些技术来提高语义一致性和时间一致性,并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明,该方法在客观指标和主观指标上均优于基线模型,并在时间信息理解、语义一致性和音质方面取得了显著进展。
May, 2023
本研究介绍了 CoTempQA,一个包含四个共时场景的 QA 基准数据集,用于评估大型语言模型的共时理解和推理能力,发现当前模型在 CoTempQA 任务上表现明显低于人类水平,甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索,发现数学推理在处理共时事件中起着重要作用,并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。
Jun, 2024
针对大型语言模型在时间推理任务中的性能,在引入新颖的合成数据集的基础上,对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究,从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。
Jun, 2024