CHAMP: 高效的集群层次注释与合并
本文提出了一种基于神经网络结构的跨文档匹配方法,能够有效地进行实体和事件的引用关系识别,其中考虑了实体和事件的上下文以及谓词-参数结构等因素。该方法在ECB+语料库上的表现优于之前的状态-最优事件-coreference模型,并提供了该语料库上的第一个实体-coreference结果。
Jun, 2019
本文提出了一种名为GoalEx的目标驱动聚类框架,结合用户目标和自由形式的语言描述,采用语言模型和整数线性规划等方法实现对大型语料库的层次化聚类,并在辩论、客户投诉和模型错误等方面进行了应用。
May, 2023
提供一款可定制的注释系统——EASE,使用多任务主动学习、基于人口统计特征的主动学习和查询大型语言模型的提示系统作为多个后端选项,可以满足自然语言处理研究人员的多样化需求,并显著加速注释过程。
May, 2023
介绍了ClusterLLM,一种新颖的文本聚类框架,它利用指导调整的大型语言模型(例如ChatGPT)的反馈。通过与传统的无监督方法相比较,ClusterLLM具有两个有趣的优势:(1)即使其嵌入不可访问,它也具有LLM的紧急能力;(2)通过文本指令和/或少量注释数据,他可以理解用户在聚类方面的偏好。
May, 2023
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
提取信息从简历通常被制定为一个两阶段的问题,首先对文档进行分段,然后分别处理每个段落以提取目标实体。相反,我们将整个问题分为两个层次的序列标注——行和标记,并研究用于同时解决两个任务的模型架构。我们建立了英文、法文、中文、西班牙文、德文、葡萄牙文和瑞典文的高质量简历解析语料库。基于这些语料库,我们提出了实验结果,证明了所提模型在信息提取任务中的有效性,优于之前工作中引入的方法。我们对提出的架构进行了消融研究。我们还分析了模型性能和资源效率,并描述了在生产环境中部署模型的权衡。
Sep, 2023
通过使用大型语言模型作为注释者,并将其放入主动学习循环中,我们提出了LLMaAA方法,充分发挥大型语言模型的潜力并有效利用大量无标签数据,提高效率和可靠性,并且在命名实体识别和关系抽取等自然语言处理任务上取得了超过其他基线方法的更高性能。
Oct, 2023
EEVEE是一种专注于简便性、效率和易用性的标注工具,可以直接在浏览器中运行,并使用制表符分隔的文件进行标注,支持多任务标注和四种任务类型。
Feb, 2024
历史语言中的NLP社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与SIGTYP 2024共享任务约束子任务的提交,重点关注13种历史语言的词性标注、形态标注和词形还原。我们采用了Sun等人(2023年)的分层分词方法,并结合DeBERTa-V3架构的优势,使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级T5模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练,并在约束子任务中获得了第一名,几乎达到了无约束任务的冠军水平。我们的代码可在此https URL找到。
May, 2024