化学专利中针对反应提取的 BERT 照应解析模型的压力测试

Jun, 2023

化学专利中针对反应提取的 BERT 照应解析模型的压力测试

Stress Testing BERT Anaphora Resolution Models for Reaction Extraction in Chemical Patents

Chieling Yueh, Evangelos Kanoulas, Bruno Martins, Camilo Thorne, Saber Akhondi

TL;DR本研究旨在探究在无噪音和有噪音环境下，代词消解模型在化学专利的反应文本中的性能差异，以及我们在多大程度上可以提高该模型对噪音的鲁棒性。

Abstract

The high volume of published chemical patents and the importance of a timely acquisition of their information gives rise to automating information extraction from chemical patents. →

chemical patents information extraction anaphora resolution reaction texts noise

发现论文，激发创造

一个排名提及模型用于抽象指代消解

使用 LSTM-Siamese 网络提出一种提高抽象代词分析性能的注重排名的模型，通过生成人工抽象代词句子 - 先行短语对来克服缺乏训练数据的问题。在 shell 名词分辨率上，我们的模型优于最先进的结果。在包含更多名词和代词的抽象指称子集的 ARRAU 语料库中，我们发现可以优化模型的变体，但在代词指称方面仍然落后。

Jun, 2017

预测化学结合文本检索

本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact，该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定化学反应相关的文本描述，然后将其与反应的分子表示进行对齐。通过在预测器训练中加入辅助的掩码语言模型目标，增强了这种对齐。我们通过两个化学任务进行了实证验证：反应条件推荐和一步逆合成。通过利用文本检索，TextReact 显著优于仅基于分子数据训练的最先进的化学信息模型。

Dec, 2023

照应辅助的文档级关系抽取

我们提出了一种基于指代辅助的框架用于文档级关系抽取任务，实验结果表明我们的模型取得了最先进的性能。

Oct, 2023

整合知识库，提升化学领域的共指消解和桥接解析

化学专利中解决共指和桥接关系对于更好地理解精确的化学过程非常重要，我们提出了一种将外部知识纳入多任务学习模型的方法，用于化学领域中的共指和桥接关系的解析，结果表明整合外部知识可以改善化学共指和桥接关系的解决。

Apr, 2024

上下文感知的神经机器翻译学习指代消解

我们引入了一种上下文感知的神经机器翻译模型，该模型可以控制和分析从扩展上下文到翻译模型的信息流，实验证明该模型改进了代词翻译和在指代方面进行了隐含捕获，而且不仅在指代性情况下有所改进，还提高了整体 BLEU 分数。

May, 2018

将指代消解作为问答的桥梁

该研究将连贯指代消解视为基于上下文的问答，并提出了一个名为 BARQA 的框架来处理此任务，利用迁移学习的能力使模型在 ISNotes 和 BASHI 两个连贯语料库上的表现达到了最新的最佳水平。

Apr, 2020

利用上下文词嵌入改进专利化学命名实体识别

本文探讨了 BiLSTM-CRF 模型在利用预训练的词嵌入、字符级和上下文化 ELMo 词表示在化学专利中的命名实体识别性能，并比较了医学和化学专利语料库上预训练的词嵌入对化学专利的影响。结果表明，使用基于 ELMo 的上下文词表示法可以大幅度提高在化学命名实体识别方面的表现。我们还表明，针对化学领域的资源（如在化学专利上训练的词嵌入和特定于化学的标记器）对 NER 性能有积极影响。

Jul, 2019

自由化复数：不受限制的分裂先行语回指的解析

该论文介绍了第一个用于无限制解决 split-antecedent anaphors 的模型，使用 BERT 嵌入及辅助语料库进行了实验，并在金准 ARRAU 语料库上取得了显著的性能提升。

Oct, 2020

集成 SVM、CNN 和 RNN 模型的化学蛋白质关系提取

本研究采用机器学习方法，结合支持向量机、卷积神经网络和递归神经网络的集成系统，自动检测 PubMed 摘要中的化学品 - 蛋白质关系，获得了高精度和高召回率表现，证明机器学习方法对于自动提取生物医学文献中的关系具有较高的有效性。

Feb, 2018

同时自我关注所有提及以进行全文摘要生物关系提取

提出一种使用自我注意力编码器模型同时预测文档中所有提及对之间关系的关系抽取方法，通过聚合提及对以形成实体对表示进行多实例学习，并增加弱标签数据来适应无提及级别注释的设置，实验证明该方法在生物文本信息抽取任务中达到了最先进性能。

Feb, 2018