特征工程与 BERT 在 Twitter 数据上的比较

Oct, 2022

特征工程与 BERT 在 Twitter 数据上的比较

Feature Engineering vs BERT on Twitter Data

Ryiaadh Gani, Lisa Chalaguine

TL;DR通过比较传统机器学习模型使用特征工程和词向量与最先进的语言模型 BERT 使用词向量在三个数据集上的表现，并考虑特征工程与 BERT 的时间和成本效益。研究证明，在三个数据集中，BERT 模型只有在其中一个数据集上胜于传统的特征向量分类器，使用 BERT 模型可以获得 0.03 和 0.05 的准确度和 F1 分数的提高，其中 BERT 模型表现显着优于传统分类器。因此，在该数据集上使用 BERT 模型值得花费时间和成本，而在其他数据集上则不值得。

Abstract

In this paper, we compare the performances of traditional machine learning models using feature engineering and word vectors and the state-of-the-art language model bert using →

machine learning bert word embeddings time efficiency cost efficiency

发现论文，激发创造

BERT 与传统机器学习文本分类的比较

本文通过实验测试，比较机器学习中经典的 TF-IDF 法与 BERT 模型在 NLP 任务中的表现，并为使用 BERT 模型提供了实证支持，结果表明 BERT 模型在 NLP 问题中表现更优秀、更独立。

May, 2020

BERT 用于情感分析：预训练和微调的替代方案

本文进行了一项针对语言模型 BERT 的情感分析任务的实验性研究，重点分析了如何更好地处理 BERT 输出层的不同嵌入以及使用与多语言模型相比更适合巴西葡萄牙语的语言模型的聚合策略和技术，并发现 BERT 在大多数情况下与 TF-IDF 相比取得了更高的预测性能，但 TF-IDF 在预测性能和计算成本之间达到了良好的平衡。

Jan, 2022

BERT 与 GPT 在金融工程中的比较

该研究对多个 Transformer 模型进行基准测试，展示了这些模型如何从新闻事件中判断情感。这个信号随后可用于下游建模和商品交易的信号识别。我们发现，在这一任务中，微调的 BERT 模型优于微调或原版的 GPT 模型。研究还提出了 CopBERT 模型，它在域特定的 BERT 训练模型（如 FinBERT）的性能上表现更好。综上所述，BERT 模型可能不会成为下一个 XGboost，但对于需要融合可解释性和准确性的金融工程任务来说，它代表了一个有趣的选择。

Apr, 2024

特征工程与特征学习方法在多语言翻译分类中的比较

本研究通过比较传统的基于特征工程的方法和基于特征学习的神经结构，分析了翻译文本的语言特征识别任务，并探讨了手工特征和神经模型预测的变量。研究表明神经结构比传统的特征工程方法优越，如 BERT 模型在单语和多语言场景下的表现最佳，而特征重要性分析也表明手工特征与神经结构的重要特征不同，多语言实验提供了翻译普遍特征的经验证据。

Sep, 2021

特徵工程的死亡？BERT 搭配 SQuAD 2.0 的語言特徵

我们开发了一个整合了 BERT 和其他语言特征的端到端问题回答模型，结果表明这种模型能够改善 BERT 基础模型，EM 得分和 F1 得分分别提高了 2.17 和 2.14。我们的最佳单一模型在隐藏测试集上达到了 EM 得分 76.55 和 F1 得分 79.97。我们的错误分析还表明，语言结构可以帮助模型更好地理解上下文，从而纠正 BERT 模型将答案错误预测为 “无答案” 的情况。

Apr, 2024

小语料下 LSTM 和 BERT 的对比

本文利用小型数据集对比了双向 LSTM 模型和预训练 BERT 模型的表现，结果表明对于小数据集，使用双向 LSTM 模型的性能显著优于使用 BERT 模型，且训练时间更短，因此在选择模型时需要考虑任务和数据等因素。

Sep, 2020

解释机器翻译语言：神经分类器为何更好，又学到了什么？

通过实验，我们发现神经元模型 BERT 在特定任务下表现更好的原因是其具有更好的特征表示，尤其是与传统手工特征相比。此外，BERT 的高性能也与其对文本主题和错误相关性的学习有关。

Oct, 2022

自然语言处理下的特征匹配

本文提出一种新的混合模型，使用事先训练好的基于自然语言处理（NLP）的 BERT 模型和基于 Jaccard 相似度的统计模型并行，用于匹配不同数据集中的特征，从而减少搜索相关性或手动匹配每个数据集中的特征所需的时间。

Mar, 2023

BERT 的通用文本表示：一项实证研究

该论文系统地研究了面向通用文本表示的分层 BERT 激活，以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中，句子级别的嵌入与两个最先进的模型进行了比较，而段落级别的嵌入则在四个问答（QA）数据集上进行了学习排名问题设置的评估。结果表明，将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。

Oct, 2019

使用监督机器学习和 BERT 模型进行在线虚假评论检测

本研究提出使用 BERT 模型从文本（即评论）中提取词嵌入来改进现有的虚假评论分类或检测方法，结果表明 SVM 分类器在准确度和 F1 得分方面优于其他分类器，并且比之前的研究中使用的分类器高出 7.6％。

Jan, 2023