- HoTPP 基准:我们在长期事件预测方面表现如何?
通过引入新的 HoTPP 基准和度量方法,这篇论文挑战传统方法,评估模型在时间范围内预测事件序列的能力,并且证明下一个事件预测的高准确性不一定能转化为更好的时间范围预测,为进一步改进这一领域的方法铺平道路。
- 统一的文本到图像生成和检索
研究中,我们提出了一个统一框架,以多模态大型语言模型(MLLMs)为背景,探索了文本到图像生成和检索之间的关系,并引入了一种生成检索方法,在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图 - CVPRViewDiff:利用文本到图像模型的 3D 一致图像生成
本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3 - MobilityGPT:基於 GPT 模型的增強人類移動行為建模
通过提出地理感知的生成模型 MobilityGPT,该研究利用生成预训练变压器(GPT)将人类移动性建模为一个自回归生成任务,并采用基于引力的抽样方法和道路连接矩阵来确保生成的轨迹符合地理空间限制,在减轻挑战的同时生成高质量、接近真实数据的 - BiTA: 大型语言模型的无损加速的双向调整
利用半自回归生成和草案验证的简化流程,提出的双向调整方法(BiTA)可加速大型语言模型(LLMs),使推理效率得到显著提高。
- Gotta be SAFE: 分子设计的新框架
通过引入序列附加式片段嵌入(SAFE)作为化学结构的新型线型表示方法,我们有效地解决了传统分子字符串表示(如 SMILES)对人工智能驱动的分子设计所带来的挑战,同时简化了复杂的生成任务,并且通过在具有片段约束的设计中进行自回归生成,消除了 - KDD注意力多层感知器用于非自回归生成
提出了一种具有线性时间和空间复杂度的新型多层感知机(AMLP)来解决非自回归生成模型中的二次复杂度问题,并通过在文本转语音合成和机器翻译任务中的实验证明,AMLP 与 NAR 模型的结合在效率上明显优于竞争模型。
- 利用模板 - 内容结构解释大型语言模型的复杂任务推理
该论文介绍了一个新的框架,将复杂自然语言任务的答案生成形式概念化为一个层次结构的 “模板 - 内容” 结构,通过对足够大的语料库进行语言建模,从而在自回归生成过程中自动分解任务为组成步骤,并加以解决,从而解释了大型语言模型复杂推理能力的机理 - 用大型语言模型引导机器人行走
使用自然语言处理模型(LLMs)通过少量样本来实现机器人的动态运动控制,充分展示了机器人领域中大规模预训练模型的潜力。
- 基于提示的长度控制生成与强化学习
我们提出了一种基于提示的长度控制方法,通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成,从而实现长度可控的生成,该方法在广泛适用于类似 GPT 的大型语言模型的同时,显著提高了摘要任务中基于提示的长度控制的准确性。
- SIGIR理解动态世界:面向开放领域实体状态跟踪的端到端知识驱动框架
提出了 KIEST 框架,它采用动态知识编码器 - 解码器框架,从外部知识图中显式检索相关实体和属性,并结合约束解码策略和一致性奖励来预测实体状态的变化,实验结果表明,在 OpenPI 公共基准数据集上,KIEST 框架显著优于强基准线。
- 使用状态空间模型生成音频
本文提出 SaShiMi,一种基于 S4 模型的新型波形建模多尺度架构。相对于现有的波形建模方法,SaShiMi 在自回归生成方面具有最先进的性能,生成的钢琴和人声波形质量更高,密度估计和速度都比 WaveNet 更好。
- EMNLP将预训练的 Transformers 微调为 RNN
本研究旨在将预训练 Transformer 转换为其高效循环对应物,在维持准确性的同时提高效率,并提出一种交换再微调的流程。
- ICMLBANG:大规模预训练实现自回归与非自回归生成的桥梁
该论文提出了 BANG,这是一种用于预训练模型的新方法,能够同时支持自回归生成、非自回归生成和半自回归生成,显著改善了问题生成和对话生成的性能。
- 快速 Wavenet 生成算法
本文介绍了一种有效的 Wavenet 生成过程实现方法 Fast Wavenet,通过缓存前面的计算结果,去除冗余卷积操作,将算法复杂度从 O (2^L) 减少到 O (L),提高了生成速度。虽然该方法是针对 Wavenet 的,但任何带有