- 机器阅读理解中推理捷径的测量与缓解调查
本综述论文探讨了自然语言处理中普遍存在的快捷学习问题,侧重于机器阅读理解领域,总结了已有的快捷学习测量和减轻方法,并提出了缺乏公共挑战集合和其他领域突出的快捷学习方法对 MRC 的两个主要关注点。
- JARVIS: 一种面向对话体现代理的神经符号常识推理框架
通过将大语言模型与视觉信息相结合,建立了一种神经符号共同思考推理框架 JARVIS,用于构建可解释且高效的对话体载体,结果达到了现有方法中最优结果。
- ACLTextWorldExpress: 以每秒 100 万步速度模拟文字游戏
这篇论文介绍了一种高性能的模拟器 TextWorldExpress,通过其可以实现对基于文本的游戏的模拟,从而研究虚拟代理人的语言理解、多步问题求解、常识推理等方面,并显著缩短实验运行时间,可以在一天内进行数十亿步的实验。
- 整合语言学理论和神经语言模型
本篇论文旨在探讨比较语言学理论和神经语言模型之间的相关性,其中使用了语言模型来衡量语义距离并研究了其对于语言学的意义、提出了衡量语言模型中的意外性的方法以及证明了该方法在探究语言运用的知识结构方面的有效性。
- 基于用户和任务的对话系统引导
TacoBot 是一个任务导向的对话系统,旨在协助用户完成多步骤的烹饪和家庭维护任务,它具备准确的语言理解、灵活的对话管理和引人入胜的响应生成,通过各种数据增强策略来训练先进的神经语言处理模型并持续改进对话体验。在半决赛结束时,TacoBo - 泰语中的拼写错误语义
本文介绍一种 fine-grained 标注的泰语拼写错误语料库,并分析其潜在语义,研究了拼写错误出现的模式,提出了两种方法来融合拼写错误的语义,即 Misspelling Average Embedding (MAE) 和 Misspel - BiT: 坚固的二值化多蒸馏 Transformer
本文提出一种改进的二元转换器方法,通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法,实现了在实际精度水平下的完全二元化转换模型,并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。
- 具有深度语言理解的照片级文本到图像扩散模型
提出了一种 Imagin 技术,在理解文本方面,利用大型 transformer 语言模型,以高逼真度和深度的语言理解建立了文本到图像的扩散模型,实现了高保真的图像生成。通过一个全面的基准测试 DrawBench,该方法在图像 - 文本对齐 - 标签锚定对比学习用于语言理解
本文提出一种基于标签锚定的对比学习方法(LaCon),用于自然语言理解分类任务中,不需要专门的网络架构或任何额外的数据增强,可轻松插入现有的强大预训练语言模型,相比于现有最先进技术,LaCon 在 GLUE 和 CLUE 基准测试数据集上有 - BERT 迁移中基于中心核对齐的特征结构蒸馏
研究了应用基于中心核对齐的特征结构蒸馏方法来有效转移三种类型的表示结构以提高 GLUE 数据集上 Bidirectional Encoder Representations from Transformers (BERT) 任务的表现,结果 - 通用的神经符号系统用于常识问答
介绍了如何使用适合的神经符号模型来实现领域泛化和下游任务的鲁棒性,讨论了整合神经语言模型和知识图谱的不同方法,并对各种常识问答基准数据集进行了定量评估和定性错误分析。
- GPT 压缩的 Kronecker 分解
本研究使用 Kronecker 分解压缩 GPT-22 模型的线性映射,并使用该技术训练得到一种新型的神经语言模型 KnGPT2,该模型在经过有效预训练后,可在具有相同参数数量的情况下,优于现有的 DistilGPT2 模型,在语言建模和通 - ACLDict-BERT: 使用词典增强语言模型预训练
本研究提出了一种基于字典定义增强语言模型预训练的方法,并在多个自然语言处理基准测试集上证明 Dict-BERT 模型能够显著提高对于生僻词的理解和各种下游任务的表现。
- ReaSCAN: 语言基础中的组合推理
本文介绍了一个新的基准数据集 ReaSCAN,它比现有的语言指导场景 gSCAN 更具挑战性,可以用于评估模型的复合泛化和推理能力。
- EMNLP分层推理用于直觉物理:向可验证的常识语言理解迈进
本文介绍了 Tiered Reasoning for Intuitive Physics(TRIP)的概念,这是一种用于解决机器语言理解和推理方面的通用常识推理数据集。作者指出,尽管大型预训练语言模型可以在终端任务上取得高端性能,但是它们在 - EMNLP冰山之尖外:文本分类器的连贯性评估
通过一种新的预测一致性评估框架来评估大规模预训练语言模型的能力,该框架可以快速、有效地提供对机器预测一致性的见解。
- VidLanKD: 通过视频提炼的知识转移来改进语言理解
本文提出了一种名为 VidLanKD 的视频 - 语言知识蒸馏方法,通过在视频文本数据集上训练一个多模教师模型,再将其知识转移到一个文本数据集上的学生语言模型,以达到优化语言理解的目的。实验结果表明,VidLanKD 模型在多个语言理解任务 - ICML贝叶斯关注信念网络
本文提出贝叶斯关注置信网络并将其应用于多种任务中,相较于确定性和其他基于 stochastic attention 的模型,其在准确性、不确定性估计等指标上均更优。同时,这种方法还可用于调整其他基于 deterministic attent - ACL借助因果推理增强语言理解
本研究提出了反事实推理模型,在学习少量反事实样本的基础上,通过生成对于每个正面事实样本的代表性反事实样本,并使用回顾模块根据对比反事实和正事实样本来检查模型预测,从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的 - 通过对空间配置进行推理实现导航
我们针对导航问题进行研究,提出了一种使用空间语义元素的神经代理导航模型,并探究了它们对导航代理的推理能力的影响。研究结果表明,指令中显式建模空间语义元素可以改善模型的基础和空间推理能力,并在已见及未见环境上取得了竞争性的性能。