本文介绍了利用弱标记的数据提高语言模型质量的方法,并实现了越南文章级别的基于检索的法律问答系统以应对低资源语言的挑战。经过多方面的实验,结果表明所提出的技术是有效的。
Jun, 2023
本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明,使用预训练的 XLM-R 多语言语言模型以其母语进行索引,可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。
Sep, 2022
本文提出了利用语义角色标注任务的语义词表示和 BERT 相对模型的上下文表示结合的实验,解决越南语中的自然语言理解问题,并通过实验结果表明语义感知的上下文表示模型比不包含语义表示的模型性能提高约 1%,而且在越南数据领域中的影响也更大。此结果还表明 SRL 对越南语的 RTE 问题具有积极作用。
Jan, 2023
本文提出使用深度神经网络从越南法律问题中提取重要信息,采用三个阶段的深度模型,利用高级自编码语言模型、字符级和 POS 标签信息生成词表示,Bidirectional LSTM 模型捕捉单词之间的关系并生成句子级别的表示,然后使用 biaffine 分类器来评估每对起始 - 结束单词成为重要细节的概率。
Apr, 2023
本研究总结了 2023 年 COLIEE 中冠军团队 THUIR 的方法,其中使用结构感知的预训练语言模型来加强对法律案例的理解,借助启发式预处理和后处理方法减少不相关信息的影响,并利用学习排序的方法来合并具有不同维度的特征,实验证明了该方法的优越性。
May, 2023
本研究针对语义解析这一重要的自然语言处理任务,提出了针对越南语的首个公共大规模 Text-to-SQL 语义解析数据集,并在该数据集上评估了两种强大的语义解析基线,通过比较不同配置条件发现自动越南语词语分割、来自越南神经依存句法分析器的潜在句法特征等都能够有效提高语义解析的匹配度,而针对越南语的单语言模型 PhoBERT 更胜于近期最佳的多语言模型 XLM-R。
Oct, 2020
本研究使用三种模型,分别基于向量空间表示法,将法律案例文档表示为不同的向量空间,并结合语义词度量和自然语言处理技术,展示了在信息检索过程中引入领域特定语义相似性测量的必要性,表明整合多种技术可显著提高信息检索的准确性,同时还展示了词相似度测量分布变化及文档向量维度变化对法律信息检索过程的影响,从而为信息检索提供了更好的方案。
May, 2018
本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022
近年来,大型语言模型(LLMs)已经融入我们的日常生活,成为完成任务的宝贵助手。本研究提出了一个名为 ViDetect 的数据集,包含 6800 个样本的越南语文章,其中 3400 个样本由人类撰写,其余由 LLMs 生成,旨在检测 AI 生成的文本。我们使用 ViT5、BartPho、PhoBERT、mDeberta V3 和 mBERT 等最先进的方法进行评估。这些结果不仅对于检测 AI 生成的文本的研究的日益增长的基础做出了贡献,还展示了不同方法在越南语境下的适应性和有效性。该研究为未来的 AI 生成文本检测的进展奠定了基础,并为自然语言处理领域的研究人员提供了宝贵的见解。
May, 2024
通过开发和传播越南语 RAG 和 LLMs 的开放式数据集和预训练模型,本文介绍了我们对越南语言理解和生成领域的贡献。
Mar, 2024