- 对比式任务专用句子编码器的信息类型分类
在危机情况中,用户生成的信息内容已成为重要的信息来源,然而,分类模型受到噪声和事件相关偏见的影响,这仍然是一个具有挑战性的任务,需要复杂的任务适应性。为了解决这些挑战,我们提出使用对比任务专用的句子编码器进行下游分类。我们在 CrisisL - EMNLPAdaSent: 高效领域自适应句子嵌入用于少样本分类
本研究探讨了针对少样本句子分类的句子编码器 (SE) 的领域专用化策略,提出了 AdaSent 方法,通过在基本的预训练语言模型上训练一个 SE adapter 来解耦句子嵌入的预训练 (SEPT) 和领域自适应预训练 (DAPT),在多个 - EMNLP基于对比学习的句子编码器隐式加权信息词汇
通过对比损失的简单调优,句子编码器的性能可以得到显著提高。本文理论上和实验上展示出,在对比学习过程中模型获得了怎样的特征,即基于信息论的数量对词汇进行隐式加权。本文还使用多种模型、多个数据集、两种度量模型隐式加权的方法(集成渐变法和 SHA - 句子编码器面临的令人望而却步的困境:在标准基准中取得成功,但无法捕捉基本的语义属性
在本研究中,我们采用回顾性方法,对比了 5 种现有的句子编码器,即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec,在下游任务表现和捕获基本语 - ACL从技术领域的术语和短语中提取文本表示
本文提出了一种全无监督的文本编码方法,通过训练小型基于字符的模型重构预训练的嵌入矩阵,该方法不仅能够在技术领域匹配句子编码器的质量,而且比后者体积小 5 倍且速度高达 10 倍,解决了大规模技术领域下词汇量增加的问题。
- 使用句子编码器进行零样本多标签主题推理
利用句子编码器进行零样本主题推断任务时,Sentence-BERT 表现出与其他编码器相比的优越性能,而在效率是首要考虑因素时,通用句子编码器是首选;这一结论得到了对七个不同数据集的广泛实验的支持。
- ACL离散余弦变换作为通用句子编码器
提取多种语言的通用句向量表示,并评估其在情感分析等多项任务中的优异性能表现。
- EMNLP一种使用预先训练的自编码器进行跨语言语言转换的简单几何方法
本文研究了在多语言训练中的强大的语句编码器,探讨了是否可以通过几何映射来间接地操纵语言属性,并用预训练的多语言自编码器验证了该方法的有效性。
- 什么是语言无关性?探究多语句子编码器的类型学特性
本文针对多种多语句子编码器,提出一种探究其对涵盖词汇、形态和句法结构的多种语言特性的表征方法,发现在不同的预训练策略下,编码不同语言特性的效果存在差异。
- 迭代结构细化进行的语义角色标注
该文介绍了一种用于语义角色标注(SRL)的迭代优化方法及网络结构,通过建立非局部交互关系,有效提高了模型表现,在七种 CoNLL-2009 中取得了最优表现并在其中五种语言中的英语数据集上取得了最新的成果。
- EMNLP语篇感知句子表示的评估基准和学习标准
本文提出 DiscoEval 测试套件,以评估句子表示是否包含更广泛的上下文信息,并使用来自维基百科的自然注释构建能够建模语篇的句子编码器的各种训练目标。在 DiscoEval 和其他句子评估任务上对经过预训练的句子编码器进行了基准测试,并 - 使用 X-Probe 探查多语言句子表示
本文在多语言领域扩展了探究句子表示的任务,提供了五种语言的维基百科数据集,评估了六种语言的句子编码器在保留语言信息方面的表现。发现跨语言映射的句子表示通常比基于自然语言推理的英文编码器训练的表示更好地保留某些语言信息。
- ACL衡量句子编码器中的社会偏见
本研究在 Word Embedding Association Test 的基础上,对句子编码进行了偏差测量,实验包括了包括 ELMo 和 BERT 在内的多种方法,并提议了未来的研究方向。
- 基于话语的目标实现快速无监督句子表示学习
该研究针对神经网络句子编码器的无监督训练提出了一种新的客观函数,通过利用段落级话语连贯性的信号训练这些模型以理解文本,该目标是纯判别式的,使我们能够比之前的方法更快地训练模型,并且产生在外部评估中表现良好的模型。