隐私政策问答的检索增强数据增强技术

Apr, 2022

隐私政策问答的检索增强数据增强技术

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies

Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang

TL;DR本文通过集成检索模型和利用多个预训练语言模型及去噪防护，开发了一种新型数据增强框架，以捕获未标记的策略文件中的相关文本段，并扩展训练集中的正面示例。使用此增强数据，该研究在 PrivacyQA 基准测试中将现有水平提高了 10% F1，实现了 50% 的新水平。（其中，F1 是一种综合度量，用于评估二元分类器的准确性。）

Abstract

Prior studies in privacy policies frame the question answering (QA) tasks as identifying the most relevant text segment or a list of sentences from the policy document for a user query. However, annotating such a dataset is challenging as it requires specific domain expertise (e.g., la

privacy policies data augmentation language models privacyqa benchmark state-of-the-art

发现论文，激发创造

PolicyQA：一份隐私政策阅读理解数据集

提出 PolicyQA，用于针对现有隐私政策发布的 25,017 个阅读理解问题的数据集，包括 714 个针对隐私实践的人工标注问题，并评估了两种现有的神经问答模型并进行了严格的分析。

Oct, 2020

隐私政策问答：结合计算和法律视角

本文介绍了 PrivacyQA 数据集，以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释，研究表明，当前的神经网络方法在回答隐私政策问题上存在诸多问题，该数据集为未来的问题回答系统提供了巨大的改进空间。

Nov, 2019

领域专属问答的检索增强生成

为 Adobe 产品建立内部问答系统，提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法，展示了微调检索器在最终生成中带来的重大改进，降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。

Apr, 2024

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

ZusammenQA：专用模型数据增强的跨语言开放检索问答系统

该论文提出了一种用于 COQA 多语言问题解答的系统，该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究，并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。

May, 2022

通过可靠和时间感知的证据检索改善健康问题回答

利用 PubMed 作为可靠的医学研究文档集合，针对开放领域的问答设置，研究通过修改检索设置来提高问答系统性能的方法。结果显示，减少检索到的文档数量，偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。

Apr, 2024

领域无关问答数据扩充及采样技术探究

研究提出了一个不依赖于特定领域的问答模型，并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效，即使它通常用于包括无法回答的问题（如 SQuAD 2.0）的数据集。当与域内采样结合应用时，基于 XLNet（Yang 等人，2019）的提交在 MRQA 领袖板竞赛中取得了第二名的准确匹配和 F1 得分。

Dec, 2019

开放域问答中 BERT 微调的数据增强

本文介绍一种利用远程监督的数据增强技术来优化基于 passage retrieval 和 BERT 阅读器的问答模型的方法，通过迭代式的参数微调方法在多个数据集上进行实验，并在英文和中文数据集上取得了明显的提升。

Apr, 2019

基于自动数据丰富的越南法律问答系统改进

本文介绍了利用弱标记的数据提高语言模型质量的方法，并实现了越南文章级别的基于检索的法律问答系统以应对低资源语言的挑战。经过多方面的实验，结果表明所提出的技术是有效的。

Jun, 2023

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024