BERT 的分层引导训练:渐进式细化文档表示的学习
我们提出了一种任务无关的梯度聚类核心集选择方法(TAGCOS),通过使用采样梯度作为数据表示,执行聚类来分组相似数据,并应用高效的贪婪算法进行核心集选择,实验结果表明我们的算法仅选择了 5% 的数据,优于其他无监督方法,并实现了接近完整数据集的性能。
Jul, 2024
该研究介绍了一种最先进的波斯语拼写纠正系统,将深度学习技术与音标分析完美结合,显著提高了用于波斯语的自然语言处理(NLP)的准确性和效率。该系统通过细调语言表示模型,将深度上下文分析与音标洞察力相结合,巧妙地纠正了非词和真词的拼写错误,并在包含广泛数据集的全面评估中证实了其卓越性能,检测真词错误的 F1 分数为 0.890,纠正它们的 F1 分数为 0.905。此外,该系统在非词错误纠正方面显示出强大的能力,实现了 0.891 的 F1 分数。这些结果说明将音标洞察力纳入深度学习模型,对于拼写纠正非常有益。我们的贡献不仅通过为各种 NLP 应用提供灵活的解决方案推动了波斯语言处理的发展,也为未来研究铺平了道路,并强调了音标分析在开发有效的拼写纠正系统中的关键作用。
Jul, 2024
基于检索增强生成的问答(RAG-QA)是自然语言处理中的一个重要研究课题,具有广泛的实际应用。本研究通过创建一个新的数据集 LFRQA,包含了人工编写的长篇答案,将多个文档的摘要性答案合并成一个连贯的叙述,跨领域覆盖了 26K 个查询和七个不同领域的大型语料库,从而解决了现有数据集的局限性。通过使用大型语言模型作为评估器,通过 RAG-QA Arena 来直接比较模型生成的答案和 LFRQA 答案,通过广泛的实验表明 RAG-QA Arena 与人工判断的答案质量高度相关,竞争力最强的大型语言模型的只有 41.3% 的答案被认为优于 LFRQA 的答案,这展示了 RAG-QA Arena 作为一个具有挑战性的未来研究评估平台。
Jul, 2024
我们通过智能正则化、改进超参数选择、使用交叉嵌入 Siamese 架构来改善句子嵌入、引入创新的早期退出方法,探索了提升 BERT 在情感分析、近义词检测和语义文本相似度方面性能的高级微调技术,我们的微调发现在多个微调架构结合时,在模型效率和性能上取得了显著改进,达到了测试集上的最先进性能得分,超过了当前的基准,突显了 BERT 在多方面的语言任务中的适应性。
Jul, 2024
使用预训练模型 BERT、ViT 和 Transformer 架构来构建多模态电影推荐系统,在电影的海报、文本描述和用户偏好的基础上进行特征提取和融合,以提供更准确的推荐。
Jul, 2024
通过使用先进的自然语言处理技术,本研究介绍了一种基于涵盖自然语言处理技术的德语推文的形成和使用的新方法,该方法可识别出涵盖抑郁内容的推文,与其他现有技术相比,证明 BERT 嵌入在评估指标和数据集注释的可靠性方面表现更好,对于通过社交媒体平台改善心理健康监测有着重要意义。
Jul, 2024
通过评估以认知评估理论为基础的多任务学习框架,预测用户行为从而改进对用户行为的理解和预测,研究表明用户的语言和特征能够提高对用户行为的预测能力,强调将心理构造整合到自然语言处理中的重要性,对于计算心理学中大规模语言模型的未来应用产生了启示。
Jul, 2024
这篇论文提出了 IL-TUR:来自印度的法律文本理解和推理基准,它包含英语、印地语和九种印度语言的特定领域任务,旨在处理印度法律文件的不同方面,提供了基准模型和对模型与现实情况之间差距的描述,并创建了一个排行榜供研究界上传和比较法律文本理解系统。
Jul, 2024
通过概述土耳其语族中亚语言(包括哈萨克语、乌兹别克语、吉尔吉斯语和土库曼语)研究的语言学特性、已开发技术的当前覆盖和性能、从高资源语言应用迁移学习技术以及每种语言的标注和无标注数据的可用性等,本文总结了当前情况,希望为进一步的研究提供参考。
Jul, 2024