- GraphER: 一种结构感知的文本到图模型,用于实体和关系抽取
该研究论文提出了一种新颖的方法,将信息提取任务转化为图结构学习,通过动态细化和优化图结构来增强模型在实体和关系预测方面的能力,相比于以前的模型,该方法允许更好的交互和结构驱动决策,同时在联合实体和关系提取基准测试上与最先进的基准模型相比获得 - 大型语言模型在目标情感分析中的应用
本文研究使用基于解码器的生成式 Transformer 来提取对俄罗斯新闻文章中的命名实体的情感分析能力,通过对 RuSentNE-2023 数据集进行实验,发现在无监督和有监督转换器中,零 - shot 方法的结果与以 BERT-base - COLING斯拉夫语跨语言命名实体语料库
该研究论文介绍了一个手动注释的语料库,包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类,以及命名实体的词形还原和链接。
- 噪音感知训练的布局感知语言模型
使用噪声感知训练 (NAT) 的多个最先进的提取模型来减少企业环境下自定义提取器所需的人工标注样本数量,提高性能,并降低人力成本。
- COLINGSTEntConv:利用立场检测和有符号图卷积网络预测异议
社交媒体平台的兴起导致了在线讨论的极化增加,特别是在选举和气候变化等政治和社会文化议题上。我们提出了一种简单而新颖的无监督方法,利用用户在帖子中关于命名实体的观点,预测两个帖子的作者是否持相同立场。我们提出了 STEntConv,这是一种构 - 如何理解命名实体:运用常识进行新闻字幕
利用常识知识理解新闻题注中的命名实体,通过筛选、区分和丰富模块,将命名实体关联的常识知识以及区分相似命名实体的知识整合,生成新闻题注。在 GoodNews 和 NYTimes 两个具有挑战性的数据集上的实验证明了该方法的优越性。
- 大型语言模型用于同时进行命名实体提取和拼写纠正
利用 Large Language Models (LLMs) 来从图片中的日语购物小票 OCR 文本中提取出命名实体,并自动纠正文本中存在的拼写错误。
- 无监督多项选择问题回答
无监督问答,多选题问答,合成数据生成,命名实体,知识图谱。
- 基于知识的视觉问答的跨模态检索
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Enc - REE-HDSC:历史数据库苏里南库拉索的实体识别
我们介绍了 REE-HDSC 项目,并概述了我们努力提高手写文本识别软件生成的文本中自动提取命名实体的质量的工作。我们描述了一个六步处理流程,并通过处理库拉索民事登记处的 19 世纪和 20 世纪的死亡证明进行了测试。我们发现该流程能够高精 - 视频摘要:朝向实体感知字幕
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以 - SALMA: 阿拉伯语义标注语料库和 WSD 基准测试
SALMA 是第一个阿拉伯语的语义注释语料库,包含约 34K 个令牌,所有令牌都进行了语义注释,并使用两个不同的语义库(现代语义库和 Ghani 语义库)进行注释。该语料库的创新之处在于如何关联令牌和语义,SALMA 将令牌与多个语义关联并 - 利用精调的大型语言模型进行虚假信息和假新闻检测的分析
利用 PEFT/LoRA 的方法对 Llama 2 大型语言模型进行细调,以用于辨析虚假信息和检测假新闻。该研究中,模型被细调以完成以下任务:解析揭示虚假信息和宣传叙事的文本、事实核查、假新闻检测、操纵分析、提取带情感的命名实体。实验结果表 - 使用经过微调的 Llama 2 GPT 模型的金融新闻分析
Llama 2 大型语言模型的精细调整为金融新闻的多任务分析提供了可能性,根据 PEFT/LoRA 的方法进行了精细调整,研究中对以下任务进行了调整:从金融市场角度分析文本,突出文本的主要观点,总结文本和提取带有适当情感的命名实体。研究结果 - ACL重新思考文档级关系抽取:现实检验
本文针对文档级关系抽取领域中广泛存在的一种强假设,即所有命名实体都已经完美地本地化、标准化和分类,通过构造四种类型的实体提及攻击,对典型的文档级关系提取模型进行行为探测,发现大多数当前的文档级关系提取模型易受实体提及攻击的影响,难以在真实世 - AfriNames: 许多 ASR 模型 “屠杀” 非洲人的姓名
通过多语言预训练、智能数据增强策略以及在多种非洲口音上微调多语言自动语音识别模型,解决使用非洲人名时自动语音识别模型性能下降的问题。相比基准样本,在使用非洲人名的样本上精度相对错误率改善了 81.5%。
- RuSentNE-2023: 评估针对俄语新闻文本的面向实体情感分析
该论文描述了 RuSentNE-2023 评估,该评估致力于对俄罗斯新闻文本中的目标情感进行分析。使用丰富的情感相关注释的俄语新闻语料库 RuSentNE 作为数据集。使用 CodaLab 竞赛框架组织了评估。ChatGPT 在测试集上进行 - 基于实体驱动的多模态 Web 内容图像搜索
介绍了一种名为 EDIS 的跨模态图像搜索数据集,包括一百万个来自实际搜索引擎结果和策划数据集的 Web 图像,并与文本描述配对,旨在鼓励开发可以同时处理跨模态信息融合和匹配的提取模型,实验证明纯文本和视觉特征的融合对性能有很大影响。
- 用于基于 Grounding 的多模态预训练的命名实体丰富标题上位词化
本文研究使用上位词法处理命名实体,用于预训练和微调多模态模型,结果表明使用上位词法能够显著提高对象的预训练性能,并且在开放词汇检测上具有潜在的发展前景。
- ACL基础模型在斯拉夫语命名实体识别和词形还原任务中的应用探索
本文介绍了亚当・米茨凯维奇大学(AMU)的解决方案,用于对斯拉夫语言中的命名实体进行识别、分类和词形还原的任务,并且探索了使用基于 BERT 和 T5 模型架构的基础模型以及外部数据集来进一步提高模型质量的方法,并取得了令人满意的结果。