- 数据集精炼中,一个标签胜过千张图片
数据质量是机器学习模型性能的关键因素,数据集精馏方法通过将训练数据集压缩为保持相似下游性能的较小版本来利用数据质量。通过剔除实验,我们发现当前最先进的精馏方法的性能取决于使用软标签而不是生成合成数据的具体技术。此外,我们还发现软标签的有效性 - 语义分割的语义空间自适应像素级分类器
本文提出了一种新颖的语义和空间自适应(SSA)分类器,通过使用从固定原型获得的粗略掩码作为指导,在测试图像的语义和空间领域调整固定原型,从而同时考虑语义和空间领域中的自适应原型以完成分类决策,文章实验证明 SSA 显著提高了基线模型的分割性 - ACLREXEL:面向文档级关系抽取和实体链接的端到端模型
REXEL 是一种高效准确的模型,可以在单个前向传递中执行提及检测、实体类型识别、实体消歧、共指消解和文档级关系分类等多个任务,将事实完全链接到参考知识图谱,具有速度和准确性的组合使得 REXEL 成为一种准确且具有成本效益的用于在 Web - COLINGChatUIE:基于大型语言模型的基于聊天的统一信息提取探索
本文介绍了 ChatUIE,这是一个基于 ChatGLM 构建的创新统一信息提取框架,使用强化学习来改进和使各种任务相一致,同时还整合了生成约束来解决输入中不存在元素的问题,实验证明 ChatUIE 可以显著提高信息提取的性能,稍微降低了聊 - EMNLP知识图谱上的实体类型的多视角对比学习
本文介绍了一种名为多视图对比学习的知识图谱实体类型推断方法,它将聚类提供的粗粒度知识编码到实体和类型嵌入中,并通过多个模块实现结构化信息的编码、不同视角的对比学习以及缺失实体类型的推断。实验证明了该方法相对于现有的最优方法具有较强的性能。
- VKIE:视频文本关键信息提取应用
从视频中提取结构化信息,是工业界许多下游应用的关键。本文定义了从视频中的视觉文本提取分层关键信息的重要任务,并介绍了名为 PipVKIE 和 UniVKIE 的两种实现解决方案。PipVKIE 逐个连续阶段完成四个子任务,而 UniVKIE - ACL信息提取的易到难学习
本文针对信息提取系统在不同任务之间交互存在困难的问题,提出了一种易于模仿人类学习过程的三阶段联合学习框架,该框架可以使模型更好地学习不同任务之间的知识和提高其泛化能力, 在四项 IE 任务上进行的广泛实验表明了本框架的有效性。
- 自动从非结构化多语言 Web 数据中提取精细化标准化产品信息
该论文展示了最近机器学习的进展,结合已发表的标准化细粒度产品类别信息的多语言数据集,使得在具有挑战性的迁移学习设置中实现了可靠的产品属性提取,可以跨在线商店、语言或两者可靠地预测产品属性,并且可用于匹配在线零售商之间的产品分类法。
- 基于 Web 问答和多模态融合的知识库补全
该论文提出了一种基于网络的问题回答系统,运用多模式融合的结构化和非结构化信息,用以填补知识库中的缺失信息,并通过该系统对问题模板进行提取和组合,结合结构化信息和网络上的非结构化信息,从而达到知识库补全的目的。
- 基于区域的形式文件理解方法 RDU
这篇研究论文提出了一种名为 RDU 的新的基于区域预测的文档理解模型,可以从表格文本混合的形式文档中提取结构化信息,其方法融合了布局感知和计算机视觉模型,具有出色的实验结果。
- EMNLP在医学文本中提取 PICO 时不借助 Span 注解的 Span 检测方法
本文提出并测试了一种新的 PICO 区间检测方法,该方法不需要标注的区间数据,仅使用众包句子级注释来实现。该方法有助于将低质量众包和句子级 PICO 注释转化为可用于快速分配临床试验的结构化信息,并提高临床试验的回收率,减少了系统性回顾的时 - FEVEROUS: 面向结构化和非结构化信息的事实提取与验证
本文提出了针对机器学习和自然语言处理领域中问题验证的一个新数据集和一个基线模型,数据集包含了包括非结构化文本和结构化表格在内的 87026 个证明,并详细描述了数据集中存在的偏见及模型的防范措施。
- ACL为长篇科技文献带来结构:一个多方位摘要数据集
本文介绍了 FacetSum 这一基于 Emerald 期刊文章的多方位摘要基准数据集,其不同于传统的文档 - 摘要对,提供了多个摘要,针对长文档的不同部分,包括目的、方法、发现和价值等方面,对数据集的分析和实证结果揭示了将结构引入摘要的重 - CVPR结构推断网络:利用场景级别上下文和实例级别关系进行目标检测
本研究提出一种基于图结构推理的对象检测算法,同时考虑了对象的视觉外观、场景语境以及对象之间的关系,并将其视为认知和推理问题,通过实验表明,这种方法确实可以提高对象检测的性能。
- LexNLP:法律和监管文本的自然语言处理与信息提取
LexNLP 是一个面向法律和监管文本的自然语言处理和机器学习的开源 Python 包,提供文档分析、信息识别、实体提取、特征转换、无监督 / 监督模型构建等多个功能,其中包含 18 种结构化信息提取以及预训练模型,并可适用于学术研究和工业 - 科学文本中的开放信息抽取:一个评估
该论文使用众包方法评估两种最先进的开放信息抽取系统在 10 个不同学科的科学文本上的性能,发现 OIE 系统在科学文本上的表现明显劣于百科全书文本,在提供错误分析并建议减少错误的领域的同时,提出了一个句子和判断的语料库。
- ECCV使用双边 Inception 的超像素卷积网络
本文提出了使用 CNN 进行语义图像分割的体系结构,使用新的 “双边启发式” 模块解决了通用 CNN 分割结构中出现的两个问题,并在三个不同数据集上得到了可靠的改进。
- 透过 DBpedia 的眼睛看维基数据
介绍了如何将 Wikidata 融入 DBpedia 生态系统并描述了这一数据集的结构和转换过程。