本文论述了如何正确建模语料库中词汇的频次分布,引入了一种基于神经网络的模型来更好地估算单词的出现概率,实验结果证明该模型在七种语言的语料库中表现良好,优于传统方法。
Jun, 2021
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
使用新的统计方法检查模型训练过程中的假相关关系,发现即使使用了优化方法来减少数据中的偏差,训练出的模型中仍存在对标签的偏差,影响了自然语言推理和重复问题检测两个任务的性能。
Jun, 2023
提出一种基于非似然训练的神经文本生成方法,有效降低生成文本的重复性,将标准束搜索的输出性能提升至目前最优,并提供了一种强有力的替代神经文本生成中已有技术的方法。
Aug, 2019
我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法(基于状态拆分的 PCFGs)生成数据,该语法源自大型自然语言语料库,但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度下界的逼近程度的差异,我们得出了显著的结果。我们的方法还允许直接将学到的表示与底层源中的符号规则进行比较,并尝试了各种用于解释模型行为和学习动态的技术。通过访问底层真实源,我们的结果显示出不同类别的单词在学习动态方面存在明显的差异和结果。
Oct, 2023
该研究提出了一种新颖的方法,使用人造语言验证语言模型的归纳偏见,并发现常用的神经架构在处理语句单词排序方面存在不同的归纳偏差。
将贝叶斯模型的归纳偏差与神经网络的灵活表示相结合,使得从自然语素材中有限学习成为可能。
May, 2023
今天的语言模型在随机输出方面表现不佳,本文提出了一种微调方法,鼓励语言模型产生分散的输出分布,使大型语言模型在合成数据集生成方面变得更实用。
Apr, 2024
本研究旨在发现序列处理神经网络对于 “自然” 词序约束的偏见。结果表明,神经网络倾向于避免长距离依赖,但并没有明显的偏好于高效的,非冗余的信息编码。因此我们建议在神经网络中引入 “努力程度” 的概念,以使其语言行为更像人类。
May, 2019
本研究调查了预测头的内部工作,特别关注偏差参数,并发现 BERT 和 GPT-2 模型中的预测头偏差对模型反映语料库中的词频有重要作用,可通过对偏差的控制在实践自回归文本生成场景下生成更多样化的文本。