化学专利中针对反应提取的 BERT 照应解析模型的压力测试
使用 LSTM-Siamese 网络提出一种提高抽象代词分析性能的注重排名的模型,通过生成人工抽象代词句子 - 先行短语对来克服缺乏训练数据的问题。在 shell 名词分辨率上,我们的模型优于最先进的结果。在包含更多名词和代词的抽象指称子集的 ARRAU 语料库中,我们发现可以优化模型的变体,但在代词指称方面仍然落后。
Jun, 2017
本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact,该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定化学反应相关的文本描述,然后将其与反应的分子表示进行对齐。通过在预测器训练中加入辅助的掩码语言模型目标,增强了这种对齐。我们通过两个化学任务进行了实证验证:反应条件推荐和一步逆合成。通过利用文本检索,TextReact 显著优于仅基于分子数据训练的最先进的化学信息模型。
Dec, 2023
化学专利中解决共指和桥接关系对于更好地理解精确的化学过程非常重要,我们提出了一种将外部知识纳入多任务学习模型的方法,用于化学领域中的共指和桥接关系的解析,结果表明整合外部知识可以改善化学共指和桥接关系的解决。
Apr, 2024
我们引入了一种上下文感知的神经机器翻译模型,该模型可以控制和分析从扩展上下文到翻译模型的信息流,实验证明该模型改进了代词翻译和在指代方面进行了隐含捕获,而且不仅在指代性情况下有所改进,还提高了整体 BLEU 分数。
May, 2018
该研究将连贯指代消解视为基于上下文的问答,并提出了一个名为 BARQA 的框架来处理此任务,利用迁移学习的能力使模型在 ISNotes 和 BASHI 两个连贯语料库上的表现达到了最新的最佳水平。
Apr, 2020
本文探讨了 BiLSTM-CRF 模型在利用预训练的词嵌入、字符级和上下文化 ELMo 词表示在化学专利中的命名实体识别性能,并比较了医学和化学专利语料库上预训练的词嵌入对化学专利的影响。结果表明,使用基于 ELMo 的上下文词表示法可以大幅度提高在化学命名实体识别方面的表现。我们还表明,针对化学领域的资源(如在化学专利上训练的词嵌入和特定于化学的标记器)对 NER 性能有积极影响。
Jul, 2019
该论文介绍了第一个用于无限制解决 split-antecedent anaphors 的模型,使用 BERT 嵌入及辅助语料库进行了实验,并在金准 ARRAU 语料库上取得了显著的性能提升。
Oct, 2020
本研究采用机器学习方法,结合支持向量机、卷积神经网络和递归神经网络的集成系统,自动检测 PubMed 摘要中的化学品 - 蛋白质关系,获得了高精度和高召回率表现,证明机器学习方法对于自动提取生物医学文献中的关系具有较高的有效性。
Feb, 2018
提出一种使用自我注意力编码器模型同时预测文档中所有提及对之间关系的关系抽取方法,通过聚合提及对以形成实体对表示进行多实例学习,并增加弱标签数据来适应无提及级别注释的设置,实验证明该方法在生物文本信息抽取任务中达到了最先进性能。
Feb, 2018