SubjQA: 一份主观性和评论理解数据集
通过考虑个性化和模棱两可性,我们创建了一个包含大约80万个问题和310万个答案的新问题回答数据集,发现考虑主观答案的个性化因素能够得到定量上更好的答案,并提供更细致的支持性观点。
Oct, 2016
该研究提出了基于评论的问答系统,并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线,证明了这个新任务的挑战性。
Aug, 2019
QED是一个基于语言学的可扩展框架,为问答提供解释,提高了调试能力、扩展性和信任度,可以根据规范的语义概念如引用相等性、句子性和蕴含关系说明问题和答案之间的关系,进行问波应答和解释生成的试验表明,训练涉及QED数据的模型可以显著提高问答能力,在大量测试中,通过QED解释可以显著提高非专业用户改正强神经基线所犯错误的能力。
Sep, 2020
本文回顾了近年来深度学习模型在自然语言处理中的研究,并着重探讨了问题回答和阅读理解方面逾80种新数据集。除此之外,对现有各种格式和领域的资源进行了总结,并提出了新的技能分类法以及对过度专注于英语的影响。最后旨在为从业者和研究人员提供指引。
Jul, 2021
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。
May, 2023
本研究介绍了第一个用于阿拉伯语主观性检测的大型数据集,包括约3.6K个手动注释的句子,并基于GPT-4o提供解释。我们还提供了英语和阿拉伯语的说明以便进行基于LLM的微调,并进行了数据集、注释过程以及广泛基准测试结果的深入分析,包括预训练语言模型(PLMs)和LLMs。我们的分析表明,注释者在注释过程的开始阶段受到其政治、文化和宗教背景的强烈影响。实验结果表明,具有上下文学习的LLMs表现更好。我们旨在向社区发布该数据集和资源。
Jun, 2024
通过对线性化表格进行序列到序列模型的微调和在流行的大型语言模型上进行提示,我们分析了从定量和定性的角度来确保捕捉主观性和事实的一致性的结果,显示出微调的LMs可以接近提示的LLMs。根据我们的了解,我们提供了一种多类型和包含主观性的表格数据集,并对不同的LLM性能进行了首次全面的分析和比较。
Jun, 2024
本研究对二分类任务进行了探讨,以确定一个文本序列(句子或段落)是否主观或客观。研究涵盖了五种语言:阿拉伯语、保加利亚语、英语、德语和意大利语,以及跨语言类别。我们的方法包括了几个关键技术:通过词性标注对数据进行预处理、识别问号和应用注意力掩码。我们在我们的数据集上对情感基础的Transformer模型'MarieAngeA13/Sentiment-Analysis-BERT'进行了微调。鉴于客观数据较多的不平衡情况,我们实现了一种自定义分类器,给予客观数据更大的权重。此外,我们将非英语数据翻译成英语,以保持数据集的一致性。我们的模型取得了显著的结果,在跨语言数据集(Macro F1=0.7121)和德语(Macro F1=0.7908)方面获得了最高分。在阿拉伯语(Macro F1=0.4908)和保加利亚语(Macro F1=0.7169)方面排名第二,意大利语(Macro F1=0.7430)排名第三,在英语(Macro F1=0.6893)方面排名第九。
Jul, 2024
本研究针对收益电话会议记录中的主观回答缺乏透明性的问题,提出了SubjECTive-QA数据集,涵盖收益电话会议问答环节的主观特征。通过对收集的49,446条长篇问答对的六个特征进行分析,研究发现现有最佳预训练语言模型在主观性较高的特征(如特定性和果断性)上表现显著优于主观性较低的特征。这一发现表明,该方法在金融领域以外具有更广泛的适用性和影响力。
Oct, 2024