在第一千年拉丁文本中以句子级别检测性内容

Sep, 2023

在第一千年拉丁文本中以句子级别检测性内容

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Thibault Clérice

TL;DR通过对句子级别的语义分类使用深度学习方法进行评估，以加速人文学科和语言学领域的语料库构建过程，我们介绍了一个包含各种类型的句子（医学，情色等）的新型语料库，跨度从公元前 300 年到公元 900 年。我们评估了不同的句子分类方法和不同的输入嵌入层，并表明所有方法都一致优于简单的基于标记的搜索。我们探索了个体方言和社会方言的元数据嵌入（世纪，作者，文体）的整合，但发现这会导致过拟合。我们的结果表明了这种方法的有效性，使用 HAN 实现了高精度和真正阳性率（TPR）分别为 70.60％和 86.33％。我们评估了数据集大小对模型性能（2013 个句子降为 420 个句子）的影响，并证明了即使没有 MLM，我们的模型仍然具有足够高的精度和 TPR，分别为 69％和 51％。基于这个结果，我们提供了对注意力机制的分析作为对人文学者的支持附加价值，以产生更多的数据。

Abstract

In this study, we propose to evaluate the use of deep learning methods for semantic classification at the sentence level to accelerate the process of →

deep learning methods semantic classification corpus building sentence classification approaches attention mechanism

发现论文，激发创造

文档连贯性建模评估

在理解预训练语言模型对话建模能力方面，我们提出了一种句子入侵检测任务，并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD，显示预训练 LM 在域内评估中表现出色，但在跨域设置中经验了大幅下降，表明其对跨域推广的能力有限。进一步的，在一个新的语言探测数据集上的结果表明，在跨域设置中有很大的改进空间。

Mar, 2021

DeepSentiPers：基于增强波斯语情感语料库训练的新型深度学习模型

本文旨在提出两种深度学习架构以及数据增强技术来分类波斯语句子的多分类和二分类情感，实验结果表明我们提出的方法可以成功地解决此问题。

Apr, 2020

语言规范化 LSTMs 用于情感分类

本研究提出了使用句子级别注释训练的简单模型，同时采用正则化方法，以模拟情感词汇、否定词和强度词汇的语言学角色，从而生成语言学相关的表示形式，并且能够捕捉情感、否定和强度词汇的情感转移效应，同时在不损失模型简洁性的前提下获得竞争性的结果。

Nov, 2016

科学文章句级嵌入的分类与聚类：对比学习生成

使用对比学习来微调句子 Transformer 模型，生成科学文章中的句子级嵌入，并将其用于科学文章中的句子分类任务，取得了显著的改进。

Mar, 2024

跨语言文本分类与识别的深度学习和嵌入可视化的比较分析

该研究通过深度学习和嵌入可视化对多语言文本分类方法进行比较研究，特别关注 FastText 和 Sentence Transformer 模型，并探索了维度对聚类的影响。研究结果显示，FastText 在二维可视化中显示出更清晰的聚类效果，取得了显著的准确性、精确率、召回率和 F1 分数，优于 Sentence Transformer 模型。该研究强调了这些技术在多语言文本分类中的有效性，并强调了使用大型多语言语料库进行嵌入训练的重要性。它为未来的研究奠定了基础，并辅助开发语言检测和分类系统。此外，研究还对多层感知机、LSTM 和卷积模型进行了比较。

Dec, 2023

Twitter 社交网络句子级情感分类的深度神经网络架构

本文介绍了一种新颖的深度学习框架，包括基于词汇表的方法用于句子级别情感标签预测。我们首先应用语义规则，然后使用深度卷积神经网络（DeepCNN）进行字符级嵌入，以增加词级嵌入的信息。然后，双向长短期记忆网络（Bi-LSTM）从词级嵌入中产生句子级特征表示。我们在三个 Twitter 情感分类数据集上评估了我们的方法。实验结果表明，我们的模型可以提高 Twitter 社交网络中句子级情感分析的分类准确性。

Jun, 2017

利用文档知识进行方面级情感分类

本文探索了两种从文档级数据转移知识的方法，以提高方面级情感分类的性能。我们在 SemEval 2014、2015 和 2016 年的 4 个公共数据集上证明了我们方法的有效性，并显示注意力机制的 LSTM 从文档级知识中受益。

Jun, 2018

HausaNLP 在 SemEval-2023 任务 10 中的应用：传递学习、合成数据和侧面信息用于多级别性别歧视分类

本文对 SemEval-2023 Task 10 的 EDOS 任务进行了参与和研究，讨论了将两个语言模型：XLM-T 和 HateBERT 迁移用于英语 Gab 和 Reddit 数据集的多层次分类，进一步细分至性别歧视或非性别歧视，并使用人工标签数据和中间类信息实现了用于最大化模型性能的综合分类。我们提交的系统在 Task A 排名第 49，F1 得分为 0.82，并且仅低于最优系统 F1 得分 0.052％，表现具有较竞争力。

Apr, 2023

利用多语言知识蒸馏的句子嵌入模型在古希腊语中的应用

通过使用多语言知识蒸馏方法训练 BERT 模型，本研究为古希腊文本生成句子嵌入，借鉴了高资源语言的模型性质，同时使用了相对较少的翻译句子数据。通过创建一个平行语料库，将古希腊文档与英文译文进行对齐，并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。

Aug, 2023

DEIM：一种有效的句子匹配深度编码与交互模型

通过深度编码和交互来提取深层语义信息的句子匹配方法，使用自注意机制和双向注意机制获得深层语义信息并进行分类，适用于文本蕴含识别、释义识别和答案选择，实验证明其可有效提取深层语义特征并验证其在句子匹配任务中的有效性。

Mar, 2022