- 探索文本生成的屏蔽语言建模和因果语言建模
这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现,发现掩码语言模型在生成文本时具有更好的质量和连贯性,并且对下游任务的性能没有明显影响,从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。
- 基于 Transformer 的对话情绪识别的神经网络
ISDS-NLP 团队在 SemEval 2024 任务 10 中提出了 EDiReF 方法,采用了掩码语言模型和因果语言模型两种不同的方法,研究了多语种设置下对情感进行预测的效果,并发现掩码语言模型在句子级情感分类方面的性能优于 Mist - NextLevelBERT:探索使用高级表示进行长文档的遮蔽语言建模
NextLevelBERT 是一种掩码语言模型,通过对高级语义表示进行预测,可以有效处理长文档,并在语义文本相似性、长文档分类和多项选择问答三个任务类型上取得较好效果。
- 通过预测质量的代理方法测量掩盖语言模型中的社会偏见
通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测 - FEUDA: 极其简便的基于提示的无监督领域自适应
通过在无标签数据上进行句子掩码模型训练(MLM)和源标记数据上进行监督指导训练,采用自监督学习和提示模型术语分类方法,我们提出了一种叫做困难易化领域适应(FEUDA)的方法,通过训练一个自回归语言模型,从源和目标领域的标签和无标签示例中,来 - DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力
提出了多个增强的解码器设计,并引入了 DrBERT(经过解码器优化的 BERT)作为一种新方法进行模型训练,通过微调对原始 BERT 模型的解码器进行改进,有效提高了模型性能而不增加推理时间和资源使用。
- 不要总是看向右边:探究基于解码器的大型语言模型在序列标注中的能力
提前训练的语言模型能够通过改进序列标记任务的表现,优于基于自回归语言模型的编码器,并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。
- LightCLIP:轻量级视觉语言模型的多层交互学习
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
- ACLBERTwich: 扩展 BERT 模型用于建模方言化和嘈杂文本
本文介绍了一种新颖的方法,即在 BERT 的编码器堆栈中插入额外的编码器层,用于对嘈杂文本进行遮蔽语言建模,以促进对方言文本的零转移能力,并减少单词与其噪声对应词之间的嵌入空间距离。
- EMNLP分布假设并不能完全解释掩蔽语言模型预训练的好处
我们从分布假设的角度分析了遮蔽语言建模预训练目标函数。我们研究了是否可以将预训练的模型的更好样本利用效率和更好的泛化能力归因于预训练数据的语义相似性编码的分布特性。通过一个合成数据集,我们的分析表明,分布特性确实导致了预训练遮蔽语言模型的更 - 关键词驱动的句子选择增强基于 BERT 的视觉问答
本文描述了 PoliTo 对文档视觉问答竞赛的方法,特别是我们利用文本方法和特定的采样策略,通过细调 BERT 模型,关注包含敏感关键词的句子以回答自然语言问题,如引用表格或图片的问题,以实现高性能的结果。
- PerPLM:通过特定作家中间学习和提示个性化微调预训练语言模型
利用个性化中间学习提取作家文本的任务无关特征,通过使用作家特定提示来个性化统一的预训练语言模型,提高文本理解任务的准确性。
- ICCVBiLMa: 文本人物重新识别的双向局部匹配
通过引入双向本地匹配 (BiLMa) 框架,我们在文本输入的图像识别任务中提出了 Masked Language Modeling (MLM) 和 Masked Image Modeling (MIM) 的联合优化方法,同时引入 Seman - ViLTA:通过文本增强增强视觉语言预训练
本文提出了一种名为 ViLTA 的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像 - 文本匹配的难度,从而在各种视觉语言任务上取得 - GeneMask:基因序列的快速预训练以实现少样本学习
提出了一种新的掩码算法 GeneMask,用于基因序列的掩码语言模型训练,该模型在四个基准基因序列分类数据集的五个少样本设置中明显优于当前最先进模型 DNABert 和 LOGO,同时训练时间不到原始模型的十分之一。
- 探究基于掩码的语言模型数据生成
本文旨在探讨基于掩码语言模型的数据增强方法在自然语言处理领域的广泛应用及提高模型性能的有效性,以及近期对该模型在生成人工扩充数据方面的应用及实验结果。
- ACLBERT-style 和 CLIP-style 文本编码器的差异
本文分析了 BERT-style 和 CLIP-style 文本编码器之间的差异,发现尽管对于通用文本理解任务,CLIP-style 文本编码器表现不如 BERT-style 文本编码器,但它们具备跨模态联想的独特能力,更类似于人类的感官。
- 语言缩水了:缩减规模后的语言模型行为
本文研究小规模的语言模型中 pre-training 效果的影响,发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果,并建立了 pre-training perplexity 和下游任务 - ACL针对鉴别性语言模型预训练的自进化学习
本文提出了 Self-Evolution 学习方法,利用自适应 Token 掩蔽和标签平滑正则化技术,全面且明智地利用数据中的知识,通过在 10 项任务中进行实验,证明了该方法在各种 PLMs 上带来了相应且显著的提升,可以提高语言知识的学 - 用于 MLM 预训练的动态掩码比率调度
通过动态调度遮蔽率,从 30%线性减少到 15%,与原始 BERT 模型的 15%固定遮蔽率相比,我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46%,从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速