弱监督域名检测

ACLJul, 2019

Weakly Supervised Domain Detection

Yumo Xu, Mirella Lapata

TL;DR本文提出了域检测作为一项新的自然语言处理任务，介绍了编码器 - 检测器框架结合多实例学习的域检测模型，并应用于不同粒度、语言和体裁的文本中，展示了域检测在文本摘要中的潜力。

Abstract

In this paper we introduce domain detection as a new natural language processing task. We argue that the ability to detect textual segments which are domain-heavy, i.e., sentences or phrases which are representative of and provide evidence for a given domain could enhance the robustnes

domain detection natural language processing text classification encoder-detector framework multiple instance learning

发现论文，激发创造

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020

通过渐进式域自适应进行跨领域弱监督物体检测

本文提出了一种跨域弱监督目标检测的框架，通过对源领域上有实例级别注释的图像和目标领域上仅有图像级别注释的图像进行双重领域适应技术进行微调，取得了 5 到 20 个百分点的均值平均精度改进。

Mar, 2018

使用变分推断的半监督随机多领域学习

该研究提出了一种基于潜变量模型的多领域学习系统方法，可用于提取重要的领域信号，并在对抗性学习等方法中，相对于其他对比基准领域适应方法，显著提升了性能。

Jun, 2019

个性化领域分类的监督式领域增强注意力

本文提出了一种基于用户授权域的监督式启用注意机制，通过利用注意力机制加权计算用户喜好或验证的授权域，来提高自然语言理解的域分类性能。该机制采用 Sigmoid 激活函数，以更具表达力的方式计算注意权重，并通过自监督机制利用其他授权域的注意信息。实验表明，我们的方法显著提高了域分类的性能。

Dec, 2018

ConDA: 基於對比學習的 AI 生成文本檢測的域適應

利用对比性领域自适应框架 ConDA，本研究解决了在检测人工智能生成的新闻文本中未标注文本数据的问题，并取得了平均性能提升 31.7％，与完全监督的检测器相差不到 0.8％的结果。

Sep, 2023

人类可以辨识域名吗？

通过训练分类器来执行相同任务，我们发现不确定性也延伸到了自然语言处理模型中，表明尽管在处理自然语言时领域广泛存在，但人们对其定义却没有共识。

Apr, 2024

自监督蒸馏的两阶段跨领域文本分类框架

本文提出了一种二阶段跨域文本分类的框架，使用掩蔽语言模型和标记数据从源域进行模型微调，然后使用自监督蒸馏和目标域的无标注数据进一步微调模型，实验结果表明我们的方法在单源域（94.17％ ↑1.03％）和多源域（95.09％ ↑1.34％）适应都达到了最新的最先进水平。

Apr, 2023

跨领域情感分类的自适应半监督学习

本文提出一种面向跨域情感分类问题的方法，该方法采用半监督学习的想法，联合使用熵最小化和自举集成自我训练来整合未标记的目标数据进行分类器细化。实验结果表明，该方法可以更好地利用来自目标域的未标记数据，在各种实验设置中都取得了重大改进。

Sep, 2018

基于预训练 Transformer 的无监督跨领域检测

本研究利用预训练的 transformers 的潜在特征表示来提出了一种简单而有效的方法，用于通过无监督的领域内数据检测领域外样本，并进一步提出了两种领域特定的微调方法来提高检测准确性。在两个数据集上的实验结果验证了该方法大大提高了更一般情景下的领域外检测能力。

Jun, 2021

高度技术领域的非监督术语提取

本文介绍了一个商业知识发现平台的术语提取子系统，采用全面且无监督注释器来跨越高度技术领域。该注释器通过将子词分词的新颖形态信号与使用通用领域预训练句子编码器计算的术语和主题以及内部术语相似度度量相结合，提取术语。通过在大型未标记语料库上运行 UA 生成的训练数据进行变压器模型的微调或预训练，使得此设置能够提高预测性能，同时减少 CPU 和 GPU 的推理延迟。该注释器为所有未标注语料库提供了非常有竞争力的基线。

Oct, 2022