良好数据、大数据还是无数据？比较三种方法，为生物医学论文开展研究方面分类器

Jun, 2023

良好数据、大数据还是无数据？比较三种方法，为生物医学论文开展研究方面分类器

Good Data, Large Data, or No Data? Comparing Three Approaches in Developing Research Aspect Classifiers for Biomedical Papers

PDF

Shreya Chandrasekhar, Chieh-Yang Huang, Ting-Hao 'Kenneth' Huang

TL;DR本文研究了不同数据集对居民群众标记的研究方面分类任务的模型性能的影响，探讨了使用大型自动筛选的 PubMed 200K RCT 数据集的潜在好处，并评估了大型语言模型，如 LLaMA，GPT-3，ChatGPT 和 GPT-4 的有效性。研究结果表明，使用 PubMed 200K RCT 数据集不会提高 CODA-19 任务的性能。同时，尽管 GPT-4 表现良好，但它没有超越在 CODA-19 数据集上优化的 SciBERT 模型，强调了专门针对目标任务的专用数据集的重要性。

Abstract

The rapid growth of scientific publications, particularly during the covid-19 pandemic, emphasizes the need for tools to help researchers efficiently comprehend the latest advancements. One essential part of unde

scientific publications covid-19 research aspect classification pubmed 200k rct dataset large language models

发现论文，激发创造

使用大型语言模型丰富机器学习数据集文档

本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度，并将其用于丰富数据集描述的方法。通过此方法，可以创建机器可读的文档，改善数据集的可发现性，评估其符合当前的 AI 法规，并改善对其训练的 ML 模型的整体质量。

Apr, 2024

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023

使用检索增强语言模型提高 GPT-3/4 在生物医学数据上的准确性

本文研究了大型语言模型在特定领域中的性能，比较了多种模型回答 DLBCL 疾病的问题，发现 RetA 模型在准确性和相关性方面表现最好。

May, 2023

研究论文的基于方面的文档相似度

本研究介绍了一种基于方面信息的相似度扩展方法，使用 Transformer 模型和 LSTM 基线评估了 172,073 份论文的相似度，结果表明 SciBERT 是最有效的系统，这种基于方面信息的相似度扩展方法可以为文献推荐系统提供更高的粒度和准确度。

Oct, 2020

使用 BERT 和 GPT-2 进行 COVID-19 医疗研究文章的自动文本摘要

我们利用预先训练的 NLP 模型 BERT 和 OpenAI GPT-2，通过对 COVID-19 开放研究数据集中的文本进行摘要来解决研究人员与快速增长出版物之间的差距，我们的模型提供了基于原始文章提取的关键词的抽象和综合信息，我们的工作可以帮助医学界通过提供简要摘要来处理那些摘要尚不可用的文章。

Jun, 2020

利用文档知识进行方面级情感分类

本文探索了两种从文档级数据转移知识的方法，以提高方面级情感分类的性能。我们在 SemEval 2014、2015 和 2016 年的 4 个公共数据集上证明了我们方法的有效性，并显示注意力机制的 LSTM 从文档级知识中受益。

Jun, 2018

生物医学自然语言处理中的大型语言模型：基准、基线和建议

本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现，并对其识别错误进行了分析，提出了在 BioNLP 应用中使用 LLMs 的建议。

May, 2023

结构化知识库在大型语言模型中优化元数据整理的应用

通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验，评估 GPT-4 对于符合元数据标准的建议编辑能力，并通过同行评审过程计算了字段名 - 字段值对的符合精确度，发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息，从 79% 提高到 97%（p<0.01），结果表明 LLMs 与结构化知识库整合后，可以在自动化元数据管理中显示出希望。

Apr, 2024

DORIS-MAE: 使用多级方面查询的科学文档检索

提出了一种新颖的任务 —— 使用多层面基于方面的查询的科学文档检索（DORIS-MAE），旨在处理科学研究中用户查询的复杂性。通过在计算机科学领域建立一个包含 100 个人工编写的复杂查询案例的基准数据集，并为每个复杂查询集合中的 100 篇相关文档提供了排序的注释相关分数，降低了专家注释的成本。在 DORIS-MAE 上评估了 17 种最近的检索方法，发现与传统数据集相比有明显的性能下降，突显了在科学研究中处理复杂多面查询的需求。

Oct, 2023

科技论文中的自动方面提取

我们的研究旨在创建一个用于从任何领域的俄语科技文本中自动提取方面的工具。本文提供了一份跨领域的俄文科技文本数据集，标注了任务、贡献、方法和结论等方面，并基于经过细调的多语言 BERT 模型提出了一个基准算法用于方面提取。我们展示了不同领域中方面表征存在一些差异，但即使我们的模型仅在有限数量的科技领域进行了训练，它仍能够推广到新的领域，这一点已通过跨领域实验证明。代码和数据集可在 https://github.com/anna-marshalova/automatic-aspect-extraction-from-scientific-texts 上获得。

Oct, 2023