- 构建面向掩蔽语言模型社会偏见的整体度量
本文利用高斯分布提出了 KLDivS 和 JSDivS 两种新的评估社会偏见的度量方法,并在公共数据集 StereoSet 和 CrowS-Pairs 上进行了实验,结果表明 KLDivS 和 JSDivS 比过去提出的度量方法更稳定和可解 - 掩码音频文本编码器是有效的多模态重评分器
本研究提出了一种多模态语言模型的再评分方法,即 Masked Audio Text Encoder (MATE),将声学表征融入到 MLM 的输入空间中,通过对比学习来有效地对齐模态,证明了在目标领域数据不可用时,使用多模态重新评分器对 A - 基于掩码语言模型的文本对抗样本检测
提出了基于掩蔽语言模型的检测方法(MLMD),用于区分正常示例和对抗攻击示例,通过探索被掩蔽语言模型引起的流形变化产生明显可区分的信号,并且在各种基准文本数据集、机器学习模型和最先进的对抗攻击上都表现出强大的性能。
- ACL经过 1 亿个单词的训练,BERT 依然保持着良好状态:BERT 遇见英国国家语料库
本文探讨了小规模训练对于掩码语言模型的影响,使用英国国家语料库作为语料来源,进行了预训练和性能测试,并提出了优化后的 LTG-BERT 模型结构,为掩码语言模型的发展提供了新的思路。
- 掩码语言模型所学习条件句的不一致性
此篇研究发现遮蔽语言模型中双向条件的不一致性,尤其在 T5 和 BERT 模型的二元模型中表现得十分显著。这些不一致性可能影响基于 BERT 模式的 MLMs 的序列采样研究,同时也意味着具有相似功能的 T5 式 MLMs 会基于不同遮蔽数 - 重建探测
本文提出了一种新的分析方法 —— 重构探测,基于掩蔽语言模型(MLM)中的重构概率来分析上下文表示。我们应用此分析方法到三个 MLMs,并发现上下文有助于靠近正在重构的标记的标记的可重构性;并且,这些增强主要归于输入层的静态和位置嵌入。
- Mini-Model Adaptation: 通过对齐的浅层训练有效地将预训练模型扩展到新语言
提出了小型模型自适应方法 Mini-Model Adaptation,在参数的部分分数中构建浅层小型模型,以高效地训练新的语种嵌入,可应用于 Transformer 等预训练模型中,跨语言性能与标准方法相当,计算效率高达 2.4 倍。
- ACL多语言表示的跨语言相似性再探讨
该论文使用 Average Neuron-Wise Correlation (ANC) 作为跨语言上下文中跨语言表示相似度的替代指标,并提供了实证研究证明了先对齐再预测的跨语言学习问提存在于多语言模型中。
- 掩码语言模型预训练阶段性别偏见出现意外波动
掩蔽语言模型在预训练时会出现性别偏见。我们的研究表明,这些偏见不仅与模型架构和语料库有关,而且还与个别模板的基本层面存在严重波动,这一假设无效。此外,这些波动并不与预测的代词的确定性或预训练语料库中的职业频率相关。我们公开了代码和数据,以造 - 面具更多,面具更晚:通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练
在预训练过程中追加 [MASK] 可以降低较早层的序列长度,从而在减少计算预算的前提下,提高 RoBERTa 模型的预训练效率,同时在 GLUE 基准测试中表现更好。
- EMNLP掩藏语言模型中的性别化心理健康歧视
本文通过探究掩盖的语言模型(masked language models)中的性别偏见来考察心理健康污名化现象,结果表明该模型捕捉到了社会对于心理健康领域中的性别污名化现象。此外,该模型也展示出了对于不同性别、不同维度、不同情境的心理健康污 - 多语言语言模型中的句法一致性神经元因果分析
该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动,并观察模型主谓一致概率的效果,发现了受语法一致性影响的神经元的分布情况,语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。
- 基于扩展标记分类的电商查询理解的短文本预训练
本文提出一种名为 ETC 的、针对短文本设计的预训练任务,通过输入生成网络插入标记并训练辨别器来解决搜索查询中蕴含的语境信息不足的问题,并在电子商务领域展示了其有效性。
- COLING除偏不足!—— 浅谈消除 MLM 和社会偏见在下游任务中的有效性
本研究探讨了遮盖语言模型的任务非特定内在社会偏见和任务特定外在社会偏见评估指标之间的关系,并发现两种评估指标之间存在着很弱的相关性。 此外,我们发现使用不同方法去除偏见的 MLM 在下游任务的精调期间仍会重新学习社会偏见。 我们发现训练实例 - 将句子嵌入融合到基于 LSTM 的自回归语言模型中
本研究提出了一种基于 LSTM 的自回归语言模型,使用预训练的掩码语言模型的前缀嵌入(通过融合,例如串联)来获得更丰富的上下文表示来进行语言建模,发现融合有助于可靠地降低复杂度,最后还讨论了这种方法在其他领域的推广。
- SIGIR复杂 NLP 在文本排名中的作用
研究发现,通过改变输入的顺序和位置信息,掩码语言模型的性能并不会受到影响;相比于句法方面,跨句子关注和更丰富的嵌入捕捉上下文的词义是 BERT 的优势所在。
- EMNLPELECTRA 激励:用判别式预训练模型进行少样本学习
本文提出了将 prompt-based few-shot learning 方法应用到 ELECTRA 上,表明该方法在各种任务中均胜过 masked language models,并显示 ELECTRA 学习到的分布与下游任务更加一致。
- ACL多语言遮蔽语言模型中的性别偏见
通过提出多语种偏差评估模型(MBE)和手动创建的数据集对八种语言的语言模型进行评估,证实了所有这些语言中均存在针对性别相关的偏差,同时在日语和俄语中的手动创建的数据集与 MBE 评分存在显著相关性。
- ACL基于双向翻译的生成真实对抗样本方法
利用 Doubly Round-Trip Translation 和 Masked Language Models 构建 NMT 对抗样本,有效提高 NMT 模型的鲁棒性。
- ACL超越遮蔽语言建模的情境表示学习
本研究分析了遮罩语言模型(如 BERT)如何学习上下文表示,提出了 TACO 作为一种直接对全局语义进行建模的表示学习方法,通过在 GLUE 基准测试中的实验,证明了 TACO 相比现有的 MLMs 可以提高 5 倍的速度和 1.2 点的平