数字嵌入学习
探讨了 NLP 模型对数字理解(数值能力)的处理方法,发现现有的模型在 DROP 数据集上表现优秀,并在合成的数字相关任务上检验了 BERT、GloVe 等词向量方法,发现字符级别的嵌入方式更加精确,ELMo pre-training 方法的准确性最好。
Sep, 2019
本研究探索数学先验的使用,通过计算聚合的数字嵌入,将其明确地融入到转换器模型中,并通过添加特殊标记或引入附加损失函数来实现。我们评估了这种明确聚合的有效性,分析了其优势和不足,并讨论了更好地从这种方法中受益的未来方向。我们的方法虽然简单,但与任何预训练模型兼容,只需要几行代码,并已公开可用。
Jul, 2024
通过生成受语料库中数字分布控制的锚点,我们引入了一种在任何语料库中语义化编码数字的策略,从而能够提供这些数字标记的数学基础表示。通过对一系列涉及从 1 到 10 亿的数字的数学任务的评估,我们证明了我们提出的技术的优越性,并展示了我们所学嵌入的数学基础的显著改进。
Apr, 2024
本文提出了 NumGPT,这是一种专门用于数学推理的预训练模型,其采用枚举法嵌入来明确地表示文本中的数字特性,并设计了一种数字感知的损失函数,该模型在评估数字能力时的结果表明,其在测量估计、数字比较、数学问题和数量分类等一系列数学推理任务上优于基线模型(如 GPT 和带 DICE 的 GPT)。
Sep, 2021
探索用语言模型建模数字的不同策略,提出使用连续概率密度函数来建模开放词汇中数字的新型神经架构,并在临床和科学数据集上进行评估表明使用分层模型可显著提高困惑度指标,连续概率密度函数模型相较于其他策略可分别将平均绝对百分比误差降低 18%和 54%。
May, 2018
该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据,并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析(PCA),我们提取这些模型用于表示数字和序数的令牌的学习嵌入,PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序,数字及其文本对应部分分别在不同的簇中表示,但在 2D 空间中沿着相同的方向增长。我们的发现表明,纯粹用于建模文本的语言模型可以理解基本的数学概念,为与定量推理交叉的 NLP 应用开辟了新的发展路径。
Apr, 2024
本研究针对数值特征在计算表格数据方面的表现,提出在深度学习中使用数值特征嵌入提升性能的方法,并重点研究两种不同的嵌入方式,并实现了嵌入在简单 MLP-like 模型与 attention-based 结构中的对比性能提升。
Mar, 2022
本文提出了一种基于少样本回归的新型分层注意力神经网络结构来解决训练集中不存在的词导致词向量精度下降的问题,实验表明该方法在学习 OOV 词嵌入方面具有优越性。
Jul, 2019
本文介绍了一种无监督学习的方法来发现数学方程的语义表示,称之为方程嵌入。该方法使用周围单词的表示来发现方程的好的表示方法,并用于分析四个计算机科学领域的科学文章中的 98.5k 个方程。结果表明,方程嵌入提供了更好的模型,并能够捕捉方程与单词之间的语义相似性。
Mar, 2018