- DICTDIS:基于字典限制的消歧改进 NMT
本文提出了 DICTDIS,一种词汇约束的神经机器翻译系统,它通过在训练数据中使用多个字典候选项来鼓励消歧。作者对新闻、金融、医疗和工程等多个领域的英语 - 印地语句子进行了广泛的实验,表明 DICTDIS 在所有领域中都具有优异的消歧性能 - 航空行业复杂表格的问答数据集
该研究主要介绍了一个针对航空业公司数据集的领域特定的表格问答数据集 AIT-QA,分析了使用 Transformer 模型进行 Table QA 的现有方法在处理领域特定的表格数据时面临的挑战,并提出了一些实用的表格预处理步骤。
- 面向低资源语言的领域特定机器翻译:以班巴拉语 - 法语为例
这篇论文关注低资源语言的机器翻译,特别针对马里的曼德语 Bambara 进行领域特定的机器翻译,构建了第一个 Bambara 到法语的领域特定平行语料库,并探讨了在小数量领域特定数据下进行低资源语言研究的挑战,进而展示在该数据下的机器学习实 - 领域专有知识图谱:一项调查
本文首次提出了领域特定知识图谱的综合定义,并针对七个领域的相关学术作品,提出了最先进的知识图谱构建方法进行了全面的回顾。审视当前方法时,揭示了一系列的局限和不足,同时还强调指出了文献中现存问题和未知的研究方向。
- ACL预训练语言模型渐进式生成长文本
该论文提出了一种通过逐步完善领域特定的关键词,并在多个阶段逐步把它们转换为完整段落生成文本的简单而有效的方法,该方法利用了预先训练的大规模语言模型,在质量和样本效率方面显着优于仅仅在小语料库上微调的大型语言模型和其他规划 - 生成方法。
- 领域定向合成问题生成进行零样本神经网络段落检索
通过合成问题生成技术缩小了零样本训练模型与基于术语技术模型之间的差距,提高了针对特定领域的文档的检索效果。
- 面向 FPGA 的领域特定应用的高效卷积神经网络
本文提出了 TuRF 框架,通过迁移学习将预训练模型适应于特定领域,替换普通卷积层并应用层融合来提高硬件设计性能,从而在 FPGA 上有效部署特定领域的应用,评估结果表明,与原始模型以及其他先前方法相比,TuRF 可以更好地实现 VGG-1 - EMNLP基于术语集扩展的英特尔 AI 实验室自然语言处理框架
SetExpander 是一个基于语料库的系统,可以将种子集中的词扩展为与之相同语义类别的完整词集,能被应用于自动化招聘系统和问题缺陷解决系统,使领域特定的细粒度语义类别的提取更加简便。
- COLING基于多语境词嵌入的术语集扩展:一种端到端工作流程
本文介绍了 SetExpander—— 一个语料库为基础的系统,用于扩展语义类别中种子术语的集合,使用迭代式端到端工作流实现了术语集扩展,已用于解决实际应用场景,例如集成到自动化招聘系统和问题解决系统中。
- 使用通用 CEFR 分类的实验
本文研究使用通用的和专业的特征,既有理论指导又有数据驱动方法,探索利用 CEFR 框架进行语言能力自动分类的可能性,并在德语、捷克语和意大利语三种语言上进行了相应的实验研究,实验结果表明单语和多语模型具有相似的性能,跨语言分类结果略有降低。
- 从稀疏的网络安全文本中学习特定领域词向量
本文提出了一种从稀疏文本中训练领域特定词向量的新方法,它不仅利用领域文本,而且还利用领域词汇和语义关系。作者将不同类型的领域知识编码为文本注释,并开发了一种新的词注释嵌入算法,将这些文本注释与词嵌入相结合。作者已在两个网络安全文本语料库上对