使用 NLP 进行产品市场需求分析的 Banglish 文本情感分析和命名实体识别
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
本文提出了一种新方法来构建可用于商业助手的孟加拉语聊天机器人,以高度自信地使用孟加拉语和孟加拉语在英语翻译中进行交流,使用 Rasa Open Source Framework,fastText embeddings,Polyglot embeddings,Flask 和其他系统作为构建块进行机器学习建模和部署,并呈现出意图分类和实体抽取的流程,其表现合理 。
Jul, 2021
本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理(BLP)研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集,该数据集由共享任务组织者提供,并注有积极、中性和消极标签,旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法,其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中,我们的最好系统排名第 12 位。
Nov, 2023
本文介绍了几种机器和深度学习方法,应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等,同时提出了自动标记的方法,并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。
Oct, 2022
本研究旨在解决对于孟加拉语资源与跨领域适应性缺乏研究的限制,因此提出一个大规模的孟加拉语电子书评论数据集, 使用各种机器学习模型分析数据,发现预训练模型比手工特征模型具有更高的性能,同时进行错误分析以提供关于在孟加拉语等欠资源语言中常见的分类错误的见解。
May, 2023
本论文描述了我们在 BLP 研讨会的共享任务 2 中对孟加拉社交媒体帖子进行情感分析的方法,我们通过使用多语言 BERT 模型进行实验和微调,并使用多数投票和加权集成模型,取得了优于基准模型的成绩,分数为 0.711,排名共享任务排行榜的第 10 位。
Oct, 2023
利用 1484 个在线评论的数据集,作者使用深度学习和机器学习技术中的逻辑回归算法,确定了预测食物质量的最准确方法。该研究提供了有价值的洞察力,帮助用户决定是否订购食物。
May, 2024
社交媒体平台在各领域的日益影响,包括旅游业,凸显了有效且自动化的自然语言处理(NLP)方法对这一宝贵资源的需求。在这项工作中,我们评估和比较了针对旅游领域中常见的 3 个 NLP 任务(情感分析、命名实体识别和细粒度主题概念提取)的几种 few-shot、模式利用和微调机器学习技术在大型多语言语言模型(LLMs)上的性能,以确定解决领域特定数据集构建中 NLP 研究人员常遇到的标注示例数量问题的最佳策略。通过对新收集和注释的由旅游相关推文组成的多语言(法语、英语和西班牙语)数据集进行广泛实验,我们发现当前的 few-shot 学习技术可以在很少的注释数据的情况下为这三个任务获得具有竞争力的结果,情感分析每个标签(总共 15 条)标注 5 条推文,位置检测的推文量为 10%(大约 160 条),而包含主题概念的推文量约为 13%(大约 200 条),这是一项高度细粒度的基于一个包含 315 个类别库的序列标注任务。这项基于新数据集的比较分析为将 NLP 应用于新的领域特定应用铺平了道路,减少了手动标注的需要并绕过了基于规则的临时解决方案的复杂性。
Nov, 2023
本研究应用自然语言处理技术,对 B2B 数据集进行情感分析、主题建模和关键词提取,证明通过自动化方法能够准确地提取情感,并将笔记按相关性分类到不同主题。同时,本研究强调缺乏明确分离主题会导致主题缺乏与商业背景相关性。
May, 2023
利用自然语言处理技术从职位描述中提取相关信息,包括解决训练数据的稀缺性、标注指南的缺乏以及从职位广告中提取有效信息的不足等挑战,最终通过引入抽取方法和多个数据集相辅相成的检索增强模型来提高整体性能,并将提取到的信息置于特定分类体系中。
Apr, 2024