越南法律文本的多阶段信息检索

Sep, 2022

Multi-stage Information Retrieval for Vietnamese Legal Texts

Nhat-Minh Pham, Ha-Thanh Nguyen, Trong-Hop Do

TL;DR本研究使用句子转换器提出了一种新的越南法律文件信息检索方法，并通过多次实验比较不同的转换器模型、排名得分、音节层和单词层的训练，实验结果表明所提出的模型的表现优于当前越南文件信息检索的模型。

Abstract

This study deals with the problem of information retrieval (IR) for vietnamese legal texts. Despite being well researched in many languages, info

information retrieval vietnamese legal texts sentence-transformer transformer models syllable-level

发现论文，激发创造

基于自动数据丰富的越南法律问答系统改进

本文介绍了利用弱标记的数据提高语言模型质量的方法，并实现了越南文章级别的基于检索的法律问答系统以应对低资源语言的挑战。经过多方面的实验，结果表明所提出的技术是有效的。

Jun, 2023

多语言信息检索的神经网络方法

本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明，使用预训练的 XLM-R 多语言语言模型以其母语进行索引，可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。

Sep, 2022

利用语义表示结合上下文词表示识别越南文本蕴含

本文提出了利用语义角色标注任务的语义词表示和 BERT 相对模型的上下文表示结合的实验，解决越南语中的自然语言理解问题，并通过实验结果表明语义感知的上下文表示模型比不包含语义表示的模型性能提高约 1％，而且在越南数据领域中的影响也更大。此结果还表明 SRL 对越南语的 RTE 问题具有积极作用。

Jan, 2023

利用深度神经网络和双仿射分类器分析越南法律问题

本文提出使用深度神经网络从越南法律问题中提取重要信息，采用三个阶段的深度模型，利用高级自编码语言模型、字符级和 POS 标签信息生成词表示，Bidirectional LSTM 模型捕捉单词之间的关系并生成句子级别的表示，然后使用 biaffine 分类器来评估每对起始 - 结束单词成为重要细节的概率。

Apr, 2023

将结构知识纳入预训练语言模型，用于法律案例检索：THUIR@COLIEE 2023

本研究总结了 2023 年 COLIEE 中冠军团队 THUIR 的方法，其中使用结构感知的预训练语言模型来加强对法律案例的理解，借助启发式预处理和后处理方法减少不相关信息的影响，并利用学习排序的方法来合并具有不同维度的特征，实验证明了该方法的优越性。

May, 2023

越南文文本到 SQL 语义分析的实验研究

本研究针对语义解析这一重要的自然语言处理任务，提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集，并在该数据集上评估了两种强大的语义解析基线，通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度，而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。

Oct, 2020

使用文档向量嵌入和深度学习进行法律文件检索

本研究使用三种模型，分别基于向量空间表示法，将法律案例文档表示为不同的向量空间，并结合语义词度量和自然语言处理技术，展示了在信息检索过程中引入领域特定语义相似性测量的必要性，表明整合多种技术可显著提高信息检索的准确性，同时还展示了词相似度测量分布变化及文档向量维度变化对法律信息检索过程的影响，从而为信息检索提供了更好的方案。

May, 2018

通过大规模翻译丰富低资源语言的生物医学知识

本研究使用英越翻译模型将生物医学数据和基准转化为越南语，并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型，该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果，并发布了 ViMedNLI 数据集用于 NLP 任务。

Oct, 2022

越南 AI 生成文本检测

近年来，大型语言模型（LLMs）已经融入我们的日常生活，成为完成任务的宝贵助手。本研究提出了一个名为 ViDetect 的数据集，包含 6800 个样本的越南语文章，其中 3400 个样本由人类撰写，其余由 LLMs 生成，旨在检测 AI 生成的文本。我们使用 ViT5、BartPho、PhoBERT、mDeberta V3 和 mBERT 等最先进的方法进行评估。这些结果不仅对于检测 AI 生成的文本的研究的日益增长的基础做出了贡献，还展示了不同方法在越南语境下的适应性和有效性。该研究为未来的 AI 生成文本检测的进展奠定了基础，并为自然语言处理领域的研究人员提供了宝贵的见解。

May, 2024

迈向全面的越南检索增强生成和大型语言模型

通过开发和传播越南语 RAG 和 LLMs 的开放式数据集和预训练模型，本文介绍了我们对越南语言理解和生成领域的贡献。

Mar, 2024