智能家居助手的意图检测和槽位填充:孟加拉和锡尔赫提语的数据集和分析
本文提出了一种新方法来构建可用于商业助手的孟加拉语聊天机器人,以高度自信地使用孟加拉语和孟加拉语在英语翻译中进行交流,使用 Rasa Open Source Framework,fastText embeddings,Polyglot embeddings,Flask 和其他系统作为构建块进行机器学习建模和部署,并呈现出意图分类和实体抽取的流程,其表现合理 。
Jul, 2021
本文提出了以越南语为主题的第一个公共意图检测和插槽填充数据集,同时提出了一种联合模型用于意图检测和插槽填充,并通过将意图上下文信息显式地纳入插槽填充中来扩展最新的 JointBERT+CRF 模型,实验结果表明,所提出的模型明显优于 JointBERT+CRF,并公开发布数据集和模型实现。
Apr, 2021
本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集,并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习,与精细调优模型进行了比较分析。研究结果表明,在零指导和少量指导的场景下,单语言变换器模型始终优于其他模型。为了促进进一步的研究探索,我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。
Aug, 2023
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
该研究介绍了 BNIntent30,这是一个包含 30 个意图类别的全面孟加拉意图分类数据集,该数据集从包含 150 个类别的多样的用户意图的 CLINIC150 数据集中摘录和翻译而来。此外,我们提出了一种新的使用生成对抗 BERT 进行孟加拉意图分类的方法,我们称之为 GAN-BnBERT。我们的实验结果表明,GAN-BnBERT 模型在新引入的 BNIntent30 数据集上实现了优越的性能,超过了现有的 Bi-LSTM 和独立的基于 BERT 的分类模型。
Dec, 2023
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
本研究通过创建一个包含 32,500 个句子的语料库,涵盖孟加拉地区的 5 种地方性孟加拉方言,提出了一种将这些方言翻译为标准孟加拉语并准确检测来源地区的模型 mT5 和 BanglaT5。实验结果显示,孟加拉地区方言的 BLEU 得分最高为 69.06,Chittagong 地区方言的 BLEU 得分最低为 36.75,Mymensingh 地区方言的平均词错误率最低为 0.1548,Chittagong 地区方言的平均词错误率最高为 0.3385。对于地区检测,使用 Bangla-bert-base 和 mBERT 分别达到了 85.86% 和 84.36% 的准确率。该研究为孟加拉方言到孟加拉机器翻译提供了首次大规模的调查,并为解决类似资源匮乏语言环境中的语言相关挑战提供了重要参考。
Nov, 2023
通过众包的方式,我们创建了孟加拉语公共语音数据集,该数据集是一个句子级自动语音识别语料库,与现有的最大开源孟加拉语数据集相比,该数据集具有更多的说话人、音素和环境多样性,并为未来的研究设立了基准。
Jun, 2022
本文提出 BanglaNLG,用于评估 Bangla 自然语言生成(NLG)模型的全面基准,并介绍了六个具有挑战性的条件文本生成任务和一个新的对话生成数据集。利用 27.5 GB 干净的 Bangla 数据集,预训练了 BanglaT5,一种面向 Bangla 的序列到序列 Transformer 语言模型。 BanglaT5 在所有任务中均达到最先进的性能,比多语言模型高出 9%的绝对收益和 32%的相对收益。我们将新的对话数据集和 BanglaT5 模型公开发布,以期推动未来的 Bangla NLG 研究。
May, 2022