使用神经网络词性标注器检测句法变化
该论文提出了一种自动检测语言变化的方法,通过一个按年度训练的神经语言模型来训练 Google Books Ngram 语料库,识别出“cell”和“gay”等单词在1900年至2009年间发生了显著变化并同时识别出这些单词发生变化的具体年份。
May, 2014
本文提出了一种用于在句内事件之间进行时间关系分类的序列模型。我们的方法首先提取一个上下文词序列,该词序列与两个事件提及之间的依赖路径很好地对齐,并使用生成的词序列对应的词性标记序列和依赖关系序列作为输入,提供给双向循环神经网络 (LSTM) 模型。神经网络学习组成句法和语义上下文表征,以预测它们之间的时间关系。该方法在TimeBank语料库上的评估表明,顺序建模能够准确地识别事件之间的时间关系,并且胜过了以前基于特征的模型。
Jul, 2017
通过 SVCCA 算法,探索并比较神经网络语言模型的学习动态,结果显示词性先于主题进行学习,循环层逐渐类似于标注器,嵌入层则不同,这一研究对于改进自然语言处理模型的学习算法及更好地融合语言学信息具有指导意义。
Nov, 2018
通过时间参照等方法来完成词汇语义变化检测,比传统的向量空间对齐方法能够更准确地控制误差。在使用时序参照的Skip-gram负采样架构和以往方法进行对比后,实验证明该方法在一个合成任务和一个人工测试集上的性能更佳。同时,我们介绍了一种模拟词汇语义变化并系统性地控制可能偏见的方法。
Jun, 2019
本文通过对词汇语义分歧的跨学科大规模评估,在时间尺度和领域范畴两方面开展语义感知变化的检测,并通过集成和扩展基准模型来解决评估历程中表面性和缺乏比较的挑战。此外,本文还展示了利用相同的评估方式和建模方法可以成功地应用于术语提取领域异构感知偏离的同步性检测。
Jun, 2019
研究语言科技的效能随时间的变化是非常实用的。本文研究了模型性能在下游语言任务中的时间效应,建立了相应术语,识别了进行强有力研究的关键因素,以英语为例,展示了任务的实验,发现依赖于时间的标签正确性并不会降低模型性能,但考虑时域的适应是有益的。自标记表现最佳。
Nov, 2021
研究历史语料库数据对语言模型 BERT 训练的影响,从而提出一种预先训练的基于 HistBERT 的语言模型,并比较它与原始 BERT 在单词相似度和语义转化分析方面的表现, 该工作强调,上下文语言嵌入在历史语言分析中的效果取决于输入文本的时态特征,并应谨慎应用此方法来研究历史语义变化。
Feb, 2022
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本论文提出了一种基于词汇层面masking的后训练策略,以此来解决大规模神经语言模型在时间通用性方面存在的问题,实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。
Oct, 2022
基于英语和德语的议会辩论文献,本研究使用五个依赖解析器对句法语言变化进行历时趋势分析,包括线性依赖距离和其他与依赖距离最小化相关的度量标准,结果表明在不同的度量标准下,句法语言变化在英语和德语中具有类似趋势,且变化更频繁出现在句子长度分布的两端,这是一项使用现代自然语言处理技术的英语和德语句法语言的最广泛分析。
Feb, 2024