基于自动数据丰富的越南法律问答系统改进

Jun, 2023

基于自动数据丰富的越南法律问答系统改进

Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment

Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen, Xuan-Hieu Phan

TL;DR本文介绍了利用弱标记的数据提高语言模型质量的方法，并实现了越南文章级别的基于检索的法律问答系统以应对低资源语言的挑战。经过多方面的实验，结果表明所提出的技术是有效的。

Abstract

question answering (QA) in law is a challenging problem because legal documents are much more complicated than normal texts in terms of terminology, structure, and temporal and logical relationships. It is even more difficult to perform legal QA for low-resource languages like

question answering legal documents vietnamese language models weak labeling

发现论文，激发创造

NeCo@ALQAC 2023: 律法领域知识获取低资源语言的数据丰富化

该论文介绍了 NeCo 团队在 2023 年自动化法律问题回答竞赛（ALQAC 2023）中针对越南文本处理任务提供的解决方案，重点是通过数据丰富来实现对低资源语言的法律领域知识获取。我们的法律文档检索任务方法结合了相似性排名和深度学习模型，而对于第二个任务，要求根据问题从相关的法律文章中提取答案，我们提出了一系列适应性技术来处理不同类型的问题。我们的方法在竞赛的两个任务中都取得了出色的成绩，展示了法律领域中问答系统特别是对于低资源语言的潜在优势和有效性。

Sep, 2023

探索法律问答系统的最新技术

该研究旨在解决法律问答的问题，提供包括 14 个标准数据集和基于深度学习的法律问答模型在内的全面调查。该研究重点讨论了面临的挑战和不足，以及使用的不同方法和技术。

Apr, 2023

利用深度神经网络和双仿射分类器分析越南法律问题

本文提出使用深度神经网络从越南法律问题中提取重要信息，采用三个阶段的深度模型，利用高级自编码语言模型、字符级和 POS 标签信息生成词表示，Bidirectional LSTM 模型捕捉单词之间的关系并生成句子级别的表示，然后使用 biaffine 分类器来评估每对起始 - 结束单词成为重要细节的概率。

Apr, 2023

使用改进大型语言模型的可解释的长篇法律问题回答

利用自然语言处理为法律文盲提供自动法律援助系统，该系统通过一种检索然后阅读的流程以生成对任何法定法律问题的长篇回答。

Sep, 2023

基于越南维基百科文本知识源的开放领域问答

这篇论文提出了 XLMRQA 作为第一个使用监督 transformer-based reader 和基于 Wikipedia 的语料库作为知识来源的越南问题回答系统，优于基于深度神经网络模型的 DrQA 和 BERTserini，同时分析了问题类型对 QA 系统性能的影响。

Apr, 2022

一款越南问答系统

该篇论文提出了一个基于本体论的越南问答系统，通过自然语言的形式使用越南语提问，从而产生精确的答案，实验结果表明该系统在组织本体论方面有良好的效果。

Nov, 2019

隐私政策问答的检索增强数据增强技术

本文通过集成检索模型和利用多个预训练语言模型及去噪防护，开发了一种新型数据增强框架，以捕获未标记的策略文件中的相关文本段，并扩展训练集中的正面示例。使用此增强数据，该研究在 PrivacyQA 基准测试中将现有水平提高了 10% F1，实现了 50% 的新水平。（其中，F1 是一种综合度量，用于评估二元分类器的准确性。）

Apr, 2022

基于不同检索和问答模型的印度法律问题回答的人工智能比较分析

使用 OpenAI GPT 模型作为基准，结合查询提示，本研究比较分析了现有的人工智能模型在印度法律问答系统中回答法律问题方面的实用性，调查了不同的检索和问答算法的效果。该研究重点关注印度刑事司法领域的应用，该领域面临复杂性和资源限制的挑战。通过从实践法律专业人士获得反馈，以严格评估这些模型的性能，从而全面评估了 AI 在印度法律问答背景下的能力和局限性。

Sep, 2023

越南法律文本的多阶段信息检索

本研究使用句子转换器提出了一种新的越南法律文件信息检索方法，并通过多次实验比较不同的转换器模型、排名得分、音节层和单词层的训练，实验结果表明所提出的模型的表现优于当前越南文件信息检索的模型。

Sep, 2022

走向更加公平的问答系统：需要多少更多的数据？

本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中，并进行深入分析和提出未来数据集开发的建议，以提高多语种问答系统的覆盖面。

May, 2021