- 知情式机器学习,中心性,卷积神经网络,相关文档检测,土著人类遗骸遣返
澳大利亚和其他原住民族面临的迫切问题之一是将其祖先的遗体遣返到他们的社区,期望应用文本挖掘技术和机器学习方法自动化地发现相关文本以协助确认偷窃、捐赠、销售或交换的情况,研究人员确定了关键词,通过将这些关键词与专家植被研究的概念进行匹配以增强 - ACLNLP Workbench:先进文本挖掘工具的高效可扩展集成
NLP Workbench 是一个基于最新预训练模型和学术开源系统构建的文本挖掘 Web 平台,采用微服务架构设计提高效率,支持实体链接、情感分析、语义解析和关系抽取等语义分析功能。
- 通过无限潜在状态复制改进主题模型推断
本文提出了一种基于无限潜在状态复制(ILR)的新型推理方法,旨在改善用于主题建模中的 CGS 推理。实验结果表明,与 CGS 推理相比,ILR 在现有主题模型的推理方面表现更出色。
- 跨机构文本挖掘揭示临床相关性:以重症医学社会因素和病情代码为例的案例研究
通过使用来自外部机构的现成文本挖掘模型,与内部标记有限的数据结合使用,可靠地提取研究变量以进行关联研究。我们对在不同数据组合上构建多个文本挖掘模型,并评估了社交因素与是否具有不复苏 / 插管代码之间的关联。虽然文本挖掘可以协助扩展对样本的分 - 使用文本挖掘和自然语言处理的医疗采购数据挖掘 —— 一项工业项目的反思
这篇研究论文介绍了一项工业项目,该项目使用文本挖掘和 NLP 解决方案挖掘了医疗保健领域的数百万异构、多语言采购文件,提取了用于动态评估供应商风险的结构化采购合同数据,并发掘了处理这些挑战的方法以及未来研究和实践的建议。
- 变化规模知识图谱中的归纳链接和排名(IRT2)
本文针对工业用例中初始缺乏有标注数据和分类信息的情况,讨论了建立特定领域知识模型的挑战,并提出了两种神经模型用于归纳链接预测。实验表明,这些模型在可链接的知识图数据减少的情况下能显著提高性能并且优于稀疏检索器。
- 基于文本挖掘和社交媒体分析的地震影响分析
本文提出了一种基于文本挖掘的方法来收集和分析社交媒体数据,以进行早期地震影响分析,结果表明,公众舆论趋势分析和公众舆情趋势可以在早期阶段评估地震的社会影响,并有助于决策和救援管理。
- AIONER:基于深度学习的全能式方案的生物医学命名实体识别
本研究提出了一种使用外部标记资源来改善泛化能力的全新生物医学命名实体识别方案,基于深度学习的 AIONER 工具比多任务学习等现有方法更为有效、稳健,能够识别训练数据中未出现的实体类型,并具有大规模处理生物医学文本的优势。
- 创新者的语言和社交行为
以大型跨国公司的网络论坛为例,通过分析约 38,000 个帖子,研究创新者在非正式交流空间中的行为和语言特征,发现创新者相对于其他员工在社交网络行为和语言特征上存在差异,例如写作更多并使用更复杂的语言、引入新概念 / 想法以及使用积极的但基 - 科技文献中的关键词提取
本文介绍了如何从科学出版物的摘要中提取关键词和关键短语,以便于下游任务,如知识图谱建设、文本挖掘和学科分类。
- 主要短语挖掘
该文介绍了一种基于独特的校准过程的方法,可以无需质量短语列表或人工干预,独立地识别主要短语并从任何文本中提取它们,同时避免重复计数等问题,以消除从文本中提取常见短语时经常出现的复杂性问题。
- X-SCITLDR:学术文献的跨语言极端摘要
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
- 使用虚拟边从复杂网络模型的文本中提取关键词
本研究发现使用嵌入式边缘可以改善共现网络的可区分性,最佳表现是在考虑低百分比的虚拟嵌入式边缘时,结构和动态网络指标的比较分析揭示了度数,PageRank 和可访问性是模型中表现最佳的指标。
- 因果新闻语料库:标注新闻事件句中的因果关系
该研究提出了一种用于事件因果关系注释的注释模式,为此构建了一个名为 Causal News Corpus(CNC)的语料库,并使用神经网络在测试集上获得了 81.20% F1 得分,CNC 是对外部语料库可转移的,也是文本挖掘研究人员的有价 - 在推特上恢复患者旅程:生物医学实体与关系的语料库 (BEAR)
本文提供了一个 14 个实体类别和 20 个关系类别的语料库,可用于从社交媒体数据中探索和建模病人旅程和经验,这些数据包含约 2100 条推文和大约 6000 个实体和 3000 个关系注释。
- ICML一种自适应深度聚类管道以在规模上通知文本标记
使用 Verint Intent Manager 中的聚类管道,将语言模型的微调和社区检测技术集成在一起,从而提高了数据分析师设计和改进 Intelligent Virtual Assistants 的效率和能力,并在三个真实世界的文本挖掘 - MM一篇有关想法挖掘的系统文献综述:使用机器驱动分析生成创意
本研究旨在研究机器驱动的分析技术来生成创意,并基于文献综述得出了一些有效技术,如文本挖掘、信息检索、深度学习、机器学习、统计技术、自然语言处理和基于 NLP 的形态分析。同时,也提出了用于进一步研究的建议。
- 基于远程标注和置信度校准的大规模蛋白质翻译后修饰抽取
在这项研究中,作者使用 IntAct PPI 数据库创建了一个远程监督的数据集,用 PPI-BioBERT-x10 训练集成的 BioBERT 模型来预测蛋白质对之间的 PTMs,并提出一个置信度校准的方法以对其进行过滤和人工筛选。他们发现 - AAAI关系抽取在临床文档理解中的应用
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark N - ACL多模态基于图的转换器框架用于生物医学关系抽取
本研究介绍了一种使用多模态线索(如分子结构)帮助模型学习实体(蛋白质)的多组学生物信息的新颖框架,以图形为基础的多模态学习机制利用 GraphBERT 模型编码了文本和分子结构信息,并利用不同模态的基础特征进行端到端的学习。在生物医学领域的