- AAAI从术语定义中挖掘常识知识
本文研究使用机器学习方法从词典术语定义中挖掘常识知识三元组,并对现有的三元组评分模型进行了比较,结果表明词项定义包含一些有效和新颖的常识知识三元组,同时也揭示了使用现有三元组评分模型面临的一些挑战。
- EMNLP学术之外的传播:了解科学概念在文本语料库中的知识转移
本研究通过对 3800 万篇论文摘要,400 万项专利文件和 28 万项临床试验进行文本挖掘和预测建模,对所有科学领域的科学概念进行了研究,以了解哪些科学概念更可能应用于实践,并确定了几种机制用于区分哪些科学概念将被采用于实践,哪些不会,并 - KDD通过联合球树和文本嵌入进行层次主题挖掘
提出了一种新方法:基于类别树描述的文本语料库的层次话题挖掘,通过开发一种新的联合树和文本嵌入方法,同时建模类别树结构和语料库生成过程来实现有效的层次话题挖掘,发现代表性词。该方法具有高效的性能和弱监督下的分类任务性能优势。
- ACLCORD-19:COVID-19 开放研究数据集
该研究介绍了 COVID-19 开放研究数据集(CORD-19)的构建、使用和相关挑战,旨在帮助计算机界、医学专家和政策制定者共同探索 COVID-19 的有效治疗和管理政策。
- NAIST COVID:跨语言 COVID-19 Twitter 和 Weibo 数据集
本研究旨在推广社交媒体研究对抗 COVID-19 及其他传染病。通过对 COVID-19 微博的量化和定性分析,我们提供了多种处理数据集的方法,并分享了一个多语种社交媒体数据集,供研究人员使用。
- 通过多语言 Twitter 数据集挖掘了解 COVID-19 政策的感知
本研究利用自然语言处理、文本挖掘和网络分析等方法,对与 COVID-19 大流行有关的推文语料库进行分析,识别不同时期应对疫情的常见方法并揭示其差异,同时揭示了从疫情早期开始通过 Twitter 传播信息和谣言的方式。最后,本研究介绍了一个 - ACLS2ORC: 语义学者开放研究语料库
S2ORC 是一个跨学科的大语料库,包括 81.1M 篇论文的元数据、摘要、文献引用等,并且结构化地附带了 8.1M 篇 OA 论文的全文和引文、图表等信息,可用于文本挖掘研究。
- 使用时间语言模型学习动态作者表示
该研究提出一种基于循环语言建模的神经模型,通过考虑作者和时间向量状态来捕捉作者社区的语言扩散趋势,从而超越了多个基于时间和非时间的语言基线,并学习了随时间变化的有意义的作者表示。
- ACL文本中的政治事件地理定位
本文介绍了一种自动地从文本中找到政治事件发生地点的方法,基于一个包含 8,000 个标签的句子集合,使用了一种将自动提取的事件和文本位置联系起来的方法,该模型在注释任务上达到了人类水平表现,胜过了先前的事件地理定位系统,并可应用于大多数地理 - 医学文献中表格信息提取框架
该研究提出了一种从医学文献中的表格中提取数值和文本信息的方法,包括表格检测、功能处理、结构处理、语义标记、语用处理、单元选择和句法处理等七个步骤,F - 度量值范围在 82% - 92% 之间.
- KDD基于目标的情感分类的多任务学习
本文提出了一种基于多任务学习的目标依赖性情感分类系统(MTTDSC),使用一个门控递归单元(GRU)和辅助全连接层来预测情感,结果表明该系统优于现有技术,可检测到先前系统忽略的与目标无关的单词表达的情感。
- WSDM大型文本语料库单词嵌入的异步训练
本文提出了一种可扩展的词向量训练方法,通过将输入空间进行分区来缩放到大规模文本语料库,同时不牺牲向量的性能,并在各种 NLP 基准测试中实现了可比较的甚至高达 45%的性能改进。
- 基于规则的库尔德文转写系统
本研究使用基于规则的方法将 Sorani Kurdish 的两种正字法进行翻译,并提出了有关 Sorani Kurdish 翻译的新颖想法,其翻译系统 Wergor 的整体精度为 82.79%,对双重字符的检测精度超过 99%,并提供了一个 - KDD基于疾病概念的生物医学文档聚类与可视化
本文介绍了一种基于向量表示和自组织映射的医学文献聚类技术,能够提供更好的文献搜索和浏览体验,并在实验中验证了该技术的有效性。
- 从复制运行的聚类中测量 LDA 主题稳定性
我们提出了一种基于重复运行 LDA、聚类和提供主题稳定性度量的方法来增强主题模型的稳定性,并以 Mozilla Firefox 提交信息为例验证了其效果。
- KDD关系抽取中充分利用领域专家的时间
文章介绍了一种使用远程监督与主动学习相结合的方法进行关系提取,实现在减少专家标注数据的人力成本的同时,使神经网络在复杂数据集上得到更好的表现。
- SIGIRSynTF: 用于隐私保护文本挖掘的合成和差分私有词项频率向量
本文提出了一种基于向量空间模型的自动化文本匿名化方法,可用于保护作者的身份,并且实现了差分隐私,防止被重新辨认。实验结果表明此方法对于文本分类任务的准确性影响较小,但对于作者识别技术的准确性影响很大。
- 集成 SVM、CNN 和 RNN 模型的化学蛋白质关系提取
本研究采用机器学习方法,结合支持向量机、卷积神经网络和递归神经网络的集成系统,自动检测 PubMed 摘要中的化学品 - 蛋白质关系,获得了高精度和高召回率表现,证明机器学习方法对于自动提取生物医学文献中的关系具有较高的有效性。
- 倾听混沌的耳语:一种应用于新闻导向的股票趋势预测的深度学习框架
通过自然语言处理和文本挖掘技术,利用新闻内容预测股票趋势并对在线内容的低质量、不可靠性和全面性进行解决,提出了一种混合注意力网络来捕捉前两个原则,并应用了自主学习机制来模仿第三个原则。在真实股市数据上的广泛实验表明了这种方法的有效性。
- 文本挖掘综述:分类、聚类和提取技术
这篇论文探讨了文本挖掘的任务及技术,其中包括文本预处理、分类和聚类,并简要介绍了文本挖掘在生物医药领域中的应用。