Mar, 2024

表格式学习:实体和上下文嵌入的编码

TL;DR通过检查不同的编码技术对实体和上下文嵌入的影响,本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上,得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性,结果表明顺序编码在预处理数据和随后正确分类目标变量方面对于分类数据来说并不是最合适的编码器。通过计算相似度矩阵作为网络输入,基于字符串相似性对特征进行编码可以取得更好的结果。无论是实体还是上下文嵌入,变压器架构在顺序编码和相似度编码方面都表现出了改进的多标签分类任务性能。