细节藏恶魔：评估基于 Transformer 的方法在细粒度任务中的局限性

COLINGNov, 2020

细节藏恶魔：评估基于 Transformer 的方法在细粒度任务中的局限性

The Devil is in the Details: Evaluating Limitations of Transformer-based Methods for Granular Tasks

Brihi Joshi, Neil Shah, Francesco Barbieri, Leonardo Neves

TL;DR该文探讨了基于 transformer 的神经语言模型生成的上下文嵌入在文本相似度问题上的表现，针对不同粒度上的文本匹配任务，发现相较于简单的基准算法 TF-IDF，该模型在细颗粒度上的匹配任务表现欠佳，提出了一种简单而有效的方法，即将 TF-IDF 与上下文嵌入模型相结合，相对性能提升达到 36%。

Abstract

contextual embeddings derived from transformer-based neural language models have shown state-of-the-art performance for various tasks such as question answering, sentiment analysis, and →

contextual embeddings transformer-based neural language models textual similarity granularity tf-idf

发现论文，激发创造

基于 Bert 的上下文对词相似度影响的精准预测模型

本文主要探讨了一种分析语境对相似词人类感知影响的方法，使用多种方式计算 BERT 生成的双向编码器表示法的两个嵌入向量之间的距离，研究组在 SemEval 2020 的任务三中赢得了芬兰语语言赛道的第一名和英语语言赛道的第二名。

May, 2020

窥探邻居：针对上下文嵌入的细粒度探测，用于获取周围词语的信息

通过引入一系列探测任务，对比测试了 BERT、ELMo 和 GPT 等语境编码器对于上下文信息的编码能力，发现每种信息类型确实都是以上下文信息的形式编码的，但是不同的编码器在分配特征到哪些标记上、特征分配的细度、特征编码的鲁棒性等方面存在差异。

May, 2020

上下文计数：对变压器在定量任务上的机理研究

该研究论文介绍了一种上下文计数任务，通过理论和实证分析，揭示了 Transformer 在性能和可解释性方面的影响因素，特别是发现因果关注机制更适合该任务，并且没有位置编码可以获得最佳准确性。

May, 2024

使用上下文表示改进话语依存分析

本研究提出了一种基于 transformers 的新方法，通过对不同级别单元的上下文化表示进行编码，动态捕捉对话依赖分析所需的信息，并将对话关系识别视为序列标记任务

May, 2022

运用传统信息检索方法提升神经排序模型

在这篇论文中，我们探索了一种低资源替代方法，即基于词嵌入的文档检索模型，发现它在与信息检索任务上经过微调的大型 Transformer 模型相比具有竞争力。我们的结果表明，将 TF-IDF（传统的关键词匹配方法）与浅层嵌入模型简单组合，提供了一种低成本的方法，使其在 3 个数据集上与复杂的神经排序模型的性能相媲美。此外，添加 TF-IDF 度量改进了这些任务上大规模微调模型的性能。

Aug, 2023

情境化的词义感知：从注意力到组合性

使用语义组合性建模的透明、可解释和语言学动机策略，模拟词的上下文意义编码，并且与复杂神经结构下的黑盒模型相比，显示其与语言学动机模型在给定语义任务中的竞争力。

Dec, 2023

破解 Transformer 模型：任务特定的上下文归因承诺在不进行预训练 LLM 微调的情况下提供改进的泛化能力

本研究提出了一种使用任务特定的上下文归因来维持模型的泛化能力并提高下游任务性能的框架。在实验证实中，该模型在三个数据集上展示了卓越的准确性和泛化性能。

Jan, 2024

使用文档级上下文来改进 Transformer 翻译模型

该研究通过在 Transformer 模型中引入上下文编码器，将文档级别的上下文信息融入原有的编码器和解码器中提高翻译质量，同时采用双倍训练方法，充分利用句子级别平行语料库和有限的文档级别平行语料库来训练模型，并通过 NIST 中英数据集和 IWSLT 法英数据集的实验表明，该方法显著提升了 Transformer 模型的性能表现。

Oct, 2018

基于 Transformer 的大语料库语义相似度分析的认知研究

本文利用传统技术和转换器技术对美国专利短语进行语义相似性分析和建模，并对 Decoding Enhanced BERT（DeBERTa）的四种不同变体进行实验，在此基础上通过 K 次交叉验证提高性能，实验结果表明我们的方法比传统技术更具有优越性，平均 Pearson 相关系数为 0.79。

Jul, 2022

基于 Transformer 的长文档匹配模型：挑战与实证分析

研究长文档匹配的最新进展集中在使用基于 transformer 的模型进行长文档编码和匹配，本文实证演示了相对于 transformer-based 模型，使用简单的神经模型（如前馈网络和 CNN）和简单的嵌入（如 GloVe 和 Paragraph Vector）在文档匹配任务中的更高效性。

Feb, 2023