带有 λ 回报的未校正最小二乘时序差分的补充材料

AAAINov, 2019

带有 λ 回报的未校正最小二乘时序差分的补充材料

Supplementary material for Uncorrected least-squares temporal difference with lambda-return

PDF

Takayuki Osogami

TL;DR本文提供了 Takayuki Osogami 关于 “未经校正的最小二乘时间差分与 lambda 回报” 的补充材料，发表在第 34 届 AAAI 人工智能会议上。

Abstract

Here, we provide a supplementary material for Takayuki Osogami, "Uncorrected least-squares temporal difference with →

temporal difference least-squares lambda-return supplementary material aaai

发现论文，激发创造

评估大型语言模型中的时间信息和推理技能

大型语言模型对于时间信息的推理和保留能力仍然有限，本论文通过在一个大规模时间数据集（TempUN）上实验，揭示了在时间保留和推理能力方面存在的显著局限。有趣的是，闭源模型更频繁地显示出知识缺口，可能表明在不确定性意识和错误响应之间存在折衷。此外，探索各种微调方法并没有带来显著的性能提升。

Feb, 2024

Time-Out: 模型词汇语义变化的时间参考方法

通过时间参照等方法来完成词汇语义变化检测，比传统的向量空间对齐方法能够更准确地控制误差。在使用时序参照的 Skip-gram 负采样架构和以往方法进行对比后，实验证明该方法在一个合成任务和一个人工测试集上的性能更佳。同时，我们介绍了一种模拟词汇语义变化并系统性地控制可能偏见的方法。

Jun, 2019

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

大型语言模型中的时间盲点

该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制，针对三个流行的时间问答数据集，我们发现大型语言模型在关于过去和新信息的详细问题上表现较差，存在多个时间错误，我们的分析有助于理解大型语言模型的局限性，并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。

Jan, 2024

用语言导向的时间变分推断进行技能学习

我们提出了一种从专家示范中发现技能的算法，该算法首先利用大型语言模型对轨迹进行初步分割，然后采用层次变分推理框架结合语言模型生成的分割信息，通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡，我们引入了一种基于最小描述长度原则的新辅助目标，有助于指导这一技能发现过程。我们的结果表明，使用我们的方法装备的代理能够发现有助于加速学习的技能，并在 BabyAI（一个网格世界导航环境）以及 ALFRED（一个家庭仿真环境）的新长期任务中胜过基线技能学习方法。

Feb, 2024

Jamp：控制的日语时间推理数据集，用于评估语言模型的泛化能力

本研究提出了一个针对时态推断的日语 NLI 基准 Jamp，用于评估单语 / 多语言模型的泛化能力；在评估中发现，语言模型在某些特定的语言现象，例如习惯性表达中，存在应对困难，因此有必要研究跨语言的有效 NLI 模型。

Jun, 2023

使用时间变分推断学习机器人技能

该论文提出了一个机器人选项无监督学习的框架，利用连续潜变量表示选项，然后通过基于时间分解的变分推理来学习控制策略和高层策略，以及演示各种任务的机器人。

Jun, 2020

Make-An-Audio 2：时间增强的文本转音频生成

该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2，通过使用预训练的大型语言模型，设计了一些技术来提高语义一致性和时间一致性，并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明，该方法在客观指标和主观指标上均优于基线模型，并在时间信息理解、语义一致性和音质方面取得了显著进展。

May, 2023

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024