- 基于投影的概念去除方法对数据集的影响
通过线性投影方法探究将一个概念从语言表达中移除后的数据集的行为,表明这些方法会在转换后的数据集中注入强大的统计依赖性,并导致转换空间高度结构化,可能通过反聚类方法重构原始标签。
- 超多语言 LLMs:令牌嵌入的跨语言可解释性
多语言大型语言模型的跨语言迁移学习是重要的,通过对输入嵌入的相似性进行解释,本研究揭示了语言模型的语言表示,在不同模型族的嵌入中存在语言编码和跨语言语义相似性的差异,这为研究预训练和模型架构对语言表示的影响以及嵌入在语言模型中的跨语言表示的 - QICHWABASE: 为母语为凯楚亚语的社区构建的凯楚亚语言和知识库
本文介绍了 QICHWABASE,通过采用 Wikibase 实例构建的方法和工具来提高韦查语(Quechua)语言和知识的存在感,支持少数民族社区的和谐化过程。
- 逐元素的语言表示
提出了一种新的计算语言表示技术 —— 逐元素嵌入,它将语义单元抽象为低维元素(字符)嵌入的水平串联,通过注意力机制训练词嵌入表示,可广泛适用于任何类型的标记化;该技术能够处理更长的序列,而无需任何架构修改和额外开销,并在多标签专利文档分类中 - ACL预训练通用语言表示
本研究提出了一个通用的语言表示学习方法 MiSAD,通过利用大型未标记语料库中提取的有意义的 n-gram,实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式,从而使手头的多个语言层次的信息能够更好地统一处理,并且在 GLUE 基准和 - AAAISG-Net:语法引导变形金刚模型用于语言表示学习
本研究提出了一种基于句法导向机制的注意力机制,设计了一个语法指导的 self-attention 网络,用于自然语言处理等任务中,取得了较好的性能。
- OSCaR: 词向量中正交子空间矫正及偏差校正
本文提出了一种名为 OSCaR 的新的降低偏见的方法,该方法专注于解开概念之间的偏见关联而非整体去除概念。实验结果表明,OSCaR 方法保证了嵌入中的语义信息被保留且能够有效地缓解偏见,特别是在性别偏见的情况下表现出良好的平衡性。
- 使用 BERT-CRF 进行葡萄牙语命名实体识别
本研究使用神经网络进行语言表示,探讨在葡语 NER 任务中使用 Portuguese BERT 和 BERT-CRF 结构的转移学习能力,采用基于特征和微调的训练策略,最终实现了比现有最优模型更好的结果。
- ERNIE: 知识融合增强的表示学习
ERNIE 是一种新颖的语言表示模型,通过知识集成增强,它设计了基于实体级屏蔽和短语级屏蔽的屏蔽策略,实验结果证明,ERNIE 在自然语言推理、语义相似性、命名实体识别、情感分析和问答等五个中文自然语言处理任务上均取得了新的最佳表现。
- 从 BERT 中提炼出特定任务的知识并转化为简单的神经网络
本文主要研究神经网络中的自然语言处理,通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务,证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下,与 ELMo 相比获得可媲美的结果。
- BERT: 深度双向变换器的预训练用于语言理解
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
- 通过分布式语言表示的反演进行文档分类
本研究论文讨论了结构和测量分布式语言模型的最新进展,指出任何分布式表示都可以通过贝叶斯原理转化为分类器,并且在 Yelp 评论的应用实验中表现良好。