本文提出了域检测作为一项新的自然语言处理任务,介绍了编码器 - 检测器框架结合多实例学习的域检测模型,并应用于不同粒度、语言和体裁的文本中,展示了域检测在文本摘要中的潜力。
Jul, 2019
本文提出了一种基于大规模预训练语言模型的领域数据选择方法,通过度量句子的隐式相似性进行聚类,仅需要少量数据即可有效提高神经机器翻译的准确性。
Apr, 2020
本研究旨在确定自然语言处理中所谓文本的概念,并提出一套通用术语和分类体系,以扩展文本的范围,从而更好地进行 NLP 建模。该研究强调了包容性方法在 NLP 中处理文本的重要性,并呼吁开发者采用系统化的报告方式,以巩固该话题。
Nov, 2022
利用层次化的分析树和递归超图揭示了大语言模型和人类所生成的不同文本的独特语篇模式,并发现了人类写作在不同领域中的结构多样性,强调了在文本分析中加入层次化的语篇特征的重要性。
Feb, 2024
提出了一种流派理论作为束的多个方面,这些方面与各种表面线索相关,认为基于表面线索的流派检测与基于深层结构属性的检测一样成功。
Jul, 1997
提出了一种名为 ADVIN 的用于自动发现大量未标记数据中的新领域和意图的框架,其采用开放式分类模型识别所有可能包含新意图的话语,使用成对边缘损失函数的知识转移部分以无监督的方式发现多个隐含意图类别并将其层次化链接成领域并形成意图 - 领域分类法,这显著优于三个基准数据集和商业语音驱动代理的实际用户话语。
May, 2020
本文介绍了对英语医学语料库进行话语分析的第一步,将其划分为不同段落,并研究训练好的分段器在医学领域中的表现。虽然表现有所下降,但错误类型表明一些问题可以在更早的步骤中解决,而另一些问题则需要扩大语料库以学习医学领域的细微差别。
Apr, 2019
通过基于表示学习的模型来适应连续的领域,可以更好地研究领域适应和语言变异,对话建模可以作为测试床。
Oct, 2016
本论文介绍了一种开放领域的主题分类系统,能够在实时接受用户自定义层次结构并通过零样本学习利用预训练语言模型来分类文本片段,并在多个领域数据集上进行了评估。
Jun, 2023
在本文中,我们介绍了一种创新的掩码方法,利用流派和主题信息来定制语言模型以适用于专业领域,该方法基于词语的重要性对其进行排名,并优先选择重要性高的词进行掩码处理,通过在法律领域进行连续预训练实验证明了我们的方法在 LegalGLUE 基准测试中的有效性,同时提供免费使用的预训练语言模型和代码。