智能家居助手的意图检测和槽位填充：孟加拉和锡尔赫提语的数据集和分析

Oct, 2023

智能家居助手的意图检测和槽位填充：孟加拉和锡尔赫提语的数据集和分析

Intent Detection and Slot Filling for Home Assistants: Dataset and Analysis for Bangla and Sylheti

Fardin Ahsan Sakib, A H M Rezaul Karim, Saadat Hasan Khan, Md Mushfiqur Rahman

TL;DR我们的研究通过引入首个全面的数据集，针对正式孟加拉语、口头孟加拉语和锡尔赫蒂语中的意图检测和槽填充，总计 984 个样本，涵盖 10 个独特的意图。分析表明，大型语言模型在处理数据不足的下游任务方面具有鲁棒性。GPT-3.5 模型在口头孟加拉语的意图检测得分为 0.94，在槽填充方面得分为 0.51。

Abstract

As voice assistants cement their place in our technologically advanced society, there remains a need to cater to the diverse linguistic landscape, including colloquial forms of →

voice assistants linguistic landscape low-resource languages intent detection slot filling

发现论文，激发创造

孟加拉会话代理的端到端自然语言理解流水线

本文提出了一种新方法来构建可用于商业助手的孟加拉语聊天机器人，以高度自信地使用孟加拉语和孟加拉语在英语翻译中进行交流，使用 Rasa Open Source Framework，fastText embeddings，Polyglot embeddings，Flask 和其他系统作为构建块进行机器学习建模和部署，并呈现出意图分类和实体抽取的流程，其表现合理。

Jul, 2021

越南文意图检测和槽填充

本文提出了以越南语为主题的第一个公共意图检测和插槽填充数据集，同时提出了一种联合模型用于意图检测和插槽填充，并通过将意图上下文信息显式地纳入插槽填充中来扩展最新的 JointBERT+CRF 模型，实验结果表明，所提出的模型明显优于 JointBERT+CRF，并公开发布数据集和模型实现。

Apr, 2021

LLM 对零样本和少样本提示的比较研究：孟加拉情感分析的微调模型

本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集，并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习，与精细调优模型进行了比较分析。研究结果表明，在零指导和少量指导的场景下，单语言变换器模型始终优于其他模型。为了促进进一步的研究探索，我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。

Aug, 2023

评估孟加拉语词汇类比

该论文提供了用于评估孟加拉语词嵌入质量的高质量数据集，该数据集对于基准测试和指导未来研究至关重要。

Apr, 2023

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

基于生成对抗 Bert 的孟加拉意图分类

该研究介绍了 BNIntent30，这是一个包含 30 个意图类别的全面孟加拉意图分类数据集，该数据集从包含 150 个类别的多样的用户意图的 CLINIC150 数据集中摘录和翻译而来。此外，我们提出了一种新的使用生成对抗 BERT 进行孟加拉意图分类的方法，我们称之为 GAN-BnBERT。我们的实验结果表明，GAN-BnBERT 模型在新引入的 BNIntent30 数据集上实现了优越的性能，超过了现有的 Bi-LSTM 和独立的基于 BERT 的分类模型。

Dec, 2023

BanglaNLP 参与 BLP-2023 任务 2：对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试

这篇论文使用基于 Transformer 的架构进行情感分析，以解决 Bangla 这种低资源语言的问题，并通过细调模型在推特数据上获得最佳性能。同时，还进行了详细的错误分析。

Oct, 2023

Vashantor：用于孟加拉区域方言自动翻译到孟加拉语的大规模多语种基准数据集

本研究通过创建一个包含 32,500 个句子的语料库，涵盖孟加拉地区的 5 种地方性孟加拉方言，提出了一种将这些方言翻译为标准孟加拉语并准确检测来源地区的模型 mT5 和 BanglaT5。实验结果显示，孟加拉地区方言的 BLEU 得分最高为 69.06，Chittagong 地区方言的 BLEU 得分最低为 36.75，Mymensingh 地区方言的平均词错误率最低为 0.1548，Chittagong 地区方言的平均词错误率最高为 0.3385。对于地区检测，使用 Bangla-bert-base 和 mBERT 分别达到了 85.86% 和 84.36% 的准确率。该研究为孟加拉方言到孟加拉机器翻译提供了首次大规模的调查，并为解决类似资源匮乏语言环境中的语言相关挑战提供了重要参考。

Nov, 2023

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

BanglaNLG 和 BanglaT5：用于评估孟加拉低资源自然语言生成的基准和资源

本文提出 BanglaNLG，用于评估 Bangla 自然语言生成（NLG）模型的全面基准，并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集，预训练了 BanglaT5，一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能，比多语言模型高出 9％的绝对收益和 32％的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布，以期推动未来的 Bangla NLG 研究。

May, 2022