不应仅依赖自然语言训练的明确识别

Jun, 2024

不应仅依赖自然语言训练的明确识别

Unambiguous Recognition Should Not Rely Solely on Natural Language Training

Renqing Luo, Yuhan Xu

TL;DR使用基于 Transformer 的架构进行 LaTeX 文本识别，识别到存在的 “偏差” 问题并提出使用混合数据集训练的 LaTeX 打印文本识别模型，该模型在编码器中采用 Swin Transformer，解码器中采用 RoBERTa 模型。实验结果表明，该方法减小了 “偏差”，提高了文本识别的准确性和鲁棒性。对于清晰图像，模型严格遵循图像内容；对于模糊图像，它整合图像和上下文信息以产生合理的识别结果。

Abstract

In latex text recognition using transformer-based architectures, this paper identifies certain "bias" issues. For instance, $e-t$ is frequently misrecognized as $e^{-t}$. This bias stems from the inherent charact

latex text recognition transformer-based architectures bias issues dataset swin transformer

发现论文，激发创造

双向训练 Transformer 的手写数学表达式识别

使用 transformer-based decoder 替换 RNN-based models，提出一种新的训练策略并采用数据增广方法，实验结果表明此模型提高了 CROHME 2014 数据集的 ExpRate 达到 2.23%，CROHME 2016 与 CROHME 2019 也分别提高了 1.92% 和 2.28%。

May, 2021

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

使用 Transformer 进行可解释的口语欺骗检测

本文提出并评估了六种深度学习模型，包括 BERT（和 RoBERTa），MultiHead Attention，co-attentions 和 transformers，结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能（+2.11％的准确率），并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。

Oct, 2022

用于无监督学习的快速准确的深度双向语言表示

提出了一种基于 Transformer 的文本自编码器（T-TA），可以在不需要重复推理的情况下计算上下文语言表示。实验结果表明，在 CPU 环境下，T-TA 在 reranking 任务中比基于 BERT 的模型快六倍，在语义相似性任务中快十二倍，并在这些任务上表现出与 BERT 相当甚至更好的准确性。

Apr, 2020

利用心理语言学特征和 Transformer 提升基于文本的情感检测的泛化能力

本文采用基于转换器模型和双向 LSTM 网络的方法，结合心理语言学特征进行基于文本的情感检测，在两个基准数据集中表现出可比性，在六个统一情感数据集的迁移学习实验中表现出强大的跨领域泛化功能。

Dec, 2022

解锁偏差检测：利用基于 Transformer 模型的内容分析

通过联合使用 Context Transformer 和 Entity Transformer，我们提出了一种新的 Contextualized Bi-Directional Dual Transformer（CBDT）分类器，用于检测文本中的偏见。实验结果表明，CBDT 分类器在准确分类有偏见和无偏见的句子以及识别具体有偏见词语和短语方面具有优势。与基准模型相比，我们获得了约 2-4% 的性能提升。未来的研究可以将该模型扩展到不同的语言和文化背景。

Sep, 2023

文本中当前的拓扑和机器学习应用于偏见检测

本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响，利用 RedditBias 数据库分析文本偏见，在偏见分类上，BERT，尤其是迷你 BERT，表现出色，而多语言模型则表现较差。研究建议改进单语模型，并探索领域特定的偏见。

Nov, 2023

利用基于 Transformer 的多任务学习技术检测新闻报道中的媒体偏见

本文提出了一种基于多任务深度学习训练的 Transformer 架构，使用六个与偏见相关的数据集来解决媒体偏见检测问题，取得了较好的效果。

Nov, 2022

使用 Transformer 和自然语言处理进行在线手势识别

本文中，使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究，并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外，使用学习的 Byte-Pair-Encoding（BPE）和大型解码空间为数据输入和语法规则提供了鲁棒性。研究表明该模型具有迁移学习能力，适用于许多其他语言，并可用于泛用性的手写识别任务。最终，基于一个新的手写手势数据集训练小型 Transformer 模型，对于英语、德语句子平均归一化 Levenshtein 准确率达到 96％，对于法语则为 94％。

May, 2023

消除非正式文档中符号表达式的歧义

利用 Transformer 语言模型针对 LaTeX 文件中的符号表达式进行自然语言处理并进行语法与语义分析。

Jan, 2021