使用深度上下文语言模型进行表格搜索

SIGIRMay, 2020

使用深度上下文语言模型进行表格搜索

Table Search Using a Deep Contextualized Language Model

Zhiyu Chen, Mohamed Trabelsi, Jeff Heflin, Yinan Xu, Brian D. Davison

TL;DR本文使用预训练的 BERT 模型来处理表格检索任务，研究如何编码表格内容以及如何将其他文献中的特征与 BERT 模型联合训练，实验表明这一方法在公共数据集上表现卓越。

Abstract

pretrained contextualized language models such as bert have achieved impressive results on various natural language processing benchmarks. Benefiting from multiple pretraining tasks and large scale training corpo

pretrained contextualized language models bert ad hoc table retrieval table content encoding jointly training

发现论文，激发创造

TaBERT: 文本和表格数据联合理解的预训练

该论文提出了一种在语言模型中加入（半）结构化表格信息的方法，并在语义解析任务上取得了新的最佳结果。

May, 2020

内容增强的基于 BERT 的文本到 SQL 生成

本文提出了一种简单的方法，利用表格内容为基于 BERT 的模型解决文本到 SQL 的问题。通过观察表格内容与问题中的一些单词匹配以及表格标题也与问题中的一些单词匹配，我们为深度模型编码了两个额外的特征向量。我们在 WikiSQL 数据集上进行了测试，并在逻辑形式和执行准确性方面比 BERT 基线提高了 3.7％，成为业内领先者。

Oct, 2019

上下文神经语言建模在信息检索中的应用

本文探讨了利用上下文语境中的神经语言模型 BERT，可以提供更深入的文本信息理解，以增强预先训练的 BERT 模型以及相关的搜索任务。

May, 2019

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

面向实体搜索的实体感知 Transformer

本篇文章研究使用知识图谱中的实体信息是否有助于基于 BERT 的实体检索模型，结果表明使用实体信息的 BERT 模型在复杂自然语言查询和属性筛选等实体相关查询任务中相比传统 BERT 模型具有更好的推荐效果，并且使用该模型可以在数据不足的情况下进行微调以实现对实体搜索的数据有效训练。

May, 2022

CT-BERT：通过跨表格预训练学习更好的表格表示

该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战，并提出了一种名为 CT-BERT 的新型框架，同时引入了对比学习和表格建模的目标，通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。

Jul, 2023

BERT、mBERT 还是 BiBERT？关于上下文化嵌入用于神经机器翻译的研究

本研究通过将定制和合适的双语预训练语言模型（称为 BiBERT）的输出（上下文嵌入）作为神经机器翻译编码器的输入，展示了实现最先进的翻译性能的方法，并提出了一种随机层选择方法和双向翻译模型的概念，以确保充分利用上下文嵌入。

Sep, 2021

BERT 下的跨语言信息检索

使用 BERT 模型在多语言语料中训练跨语言信息检索模型，实验结果显示该模型在英语查询与立陶宛语文档的信息检索任务中优于其他竞争模型

Apr, 2020

BERTTM：利用预训练语言模型的上下文化单词嵌入来进行神经主题建模

本研究开发了一种新型的神经主题模型，结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入，无需使用任何词袋信息即可推断文档的主题分布，实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型，并可处理来自新到达文档的未见单词。

May, 2023