- EMNLP低资源语言的语料库品质真的很重要吗?
通过对巴斯克语的表征学习进行案例研究,我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高,而且在巴斯克语广泛的语料库中取得了类似的结果,但我们的工作表明,低资源语言的 NLU 性能不是主要受到数据质量的限 - 为促进语言科技的多样性,构建和维护对话语料库
提供了分析流程和最佳实践准则来构建和策划日常会话语料库,并开发了质量控制方法。通过两个案例研究展示了会话数据的广泛实用性,并讨论了语言多样性会话语料库对语言科学和语言技术的强有力的经验基础。
- ACL一种简单而有效的可插拔式实体查找表应用于预训练语言模型
本文提出了一种 PELE 方法,通过聚合出现在大规模语料库中的实体的输出表示,能够将相关语料库中的实体知识灵活有效地传输到具有不同架构的预训练语言模型中,只需要 0.2%-5% 的预计算能够在域自适应场景中从域外语料库获取知识,实验表明该方 - Pirá:一个关于海洋的葡萄牙语 - 英语双语问答数据集
本论文介绍了 Pirá 数据集,是首个包括葡萄牙语文本和双语问答集的 QA 数据集,数据集有助于自然语言处理中的问题回答、信息检索和机器翻译等任务。
- OCR 噪声对语言模型的影响评估
本研究旨在分析 OCR 噪声对多语种语言模型的影响,并发现 OCR 噪声会对语言模型造成显著影响,特别是在少量语料库的情况下,简单的语言模型如 PPMI 和 Word2Vec 可以更好地应对 OCR 噪声。
- ASL 视频语料库和手语库:美国手语语言研究项目(ASLLRP)提供的资源
该研究介绍了 ASLLRP 项目,该项目提供了美国手语视频数据,包括注释的手势和面部运动信息,并开发了数据访问界面(DAI 2)和手语库 Sign Bank 来支持复杂搜索和语言学研究。
- IJCAI使用凝视行为进行自然语言处理的调查
本文讨论了在自然语言处理中解决不同任务时使用注视行为的方法,重点在于研究减轻运行时记录注视行为需求的方法,并提及了现有的多语言注视行为数据集,最后讨论了在教育领域中应用注视行为的方法与其可以帮助解决的问题。
- EMNLP评估同声传译数据上的同时机器翻译表现
该研究旨在证明同时机器翻译系统应该使用实际口译数据进行训练和测试,对使用离线翻译数据进行训练的同时机器翻译系统进行评估,结果表明使用口译数据评估时,BLEU 分数可提高多达 13.83,提出了一种将离线翻译转换为口译风格数据的解决方法,并建 - EMNLPDRIFT:科学文献历时分析工具包
本研究介绍了一种用于时序研究语料库的应用程序,名为 DRIFT,可用于追踪研究趋势和发展。该工具旨在分析关键词提取、预测趋势、单词的语义漂移等现象。我们在 cs.CL corpus 进行了案例研究,以演示此工具的实用性和效果。
- ACLSummVis: 文本摘要模型、数据、评估的交互可视化分析
通过 SummVis 工具的词汇和语义可视化,可以进行对神经网络抽象文本摘要模型的深入探索和细致分析,帮助改善评估方法和数据分析工具的局限性。
- ACL语义漂移分析的交互工具:TextEssence
本文介绍了使用词嵌入进行语言学特征和语料库相关性比较的交互式系统 TextEssence,并提出了一种基于邻域重叠的嵌入置信度度量方法,用于辅助语料库分析。作者以 COVID-19 科技文献为例进行了案例研究。
- ACL野外韵律标记:用韵律特征建立和注释诗歌语料库
本文提供了英语和德语的大型诗歌语料库,并注释了较小语料库中的韵律特征以训练神经模型,以实现鲁棒性大规模分析。我们表明,具有音节嵌入的双向 LSTM-CRF 模型胜过 CRF 基线和不同的 BERT-based 方法。在多任务设置中,特定有益 - EMNLP开放韩国语料库:实用报告
本文介绍了韩语语料库的资源开发、开放数据集以及为促进低资源语言的研究提出了开源数据集的构建和发布方向。
- AAAI简单还是复杂?学习预测孟加拉文本的可读性
本文提出了一种可分析孟加拉语文本可读性和复杂性的工具,包括一些人工注释的数据集和字典,并在缺乏人工注释数据的情况下,使用句子级和神经结构进行文档级可读性的预测和建模,这将作为孟加拉语可读性预测的基线。
- ICML使用主题建模技术进行非药物干预探索
本研究使用话题建模探讨 COVID-19 疫情中的非药物干预措施分类,发现话题模型能够发现现有类别并减少人工标注。
- MM斯里兰卡 Facebook 十年的僧伽罗语语料库和停用词
本文介绍来自 LIRNEasia 的 Data, Analysis and Policy 团队的两个疯狂的僧伽罗语语料库,以及一个算法派生的停止词列表。其中较大的语料库跨越 2010 年到 2020 年,包含了斯里兰卡的 533 个 Fac - FinBERT:金融通信预训练语言模型
本文旨在满足金融领域中对预训练语言模型的需求,提出了一种基于大量金融通信语料库的金融领域特定 BERT 模型(FinBERT),在三个金融情感分类任务上的实验结果证明了 FinBERT 相比于一般领域的 BERT 模型具有优势。
- LinCE: 一个用于语言混合评估的集中式基准测试
本文提出了用于语言混合(Code-Switching)的中心化基准测试(LinCE),其中包括四种混音语言对和四个 NLP 任务,包括语言识别,命名实体识别,词性标注和情感分析。LinCE 旨在提高多语言 NLP 建模的可重复性、可比性和准 - ICLR通过图片实现低资源语言的实用可比数据收集
通过挑选一组被认为关键的图像,并在源语言和目标语言中分别获取标题,我们提出了一种为语言贫乏地区的高质量可比较的培训数据、从单语注释人员中收集数据的方法。我们使用我们的方法创建的英印比较语料库的人工评估表明,81.1%的配对具有可接受的翻译效 - CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子
通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在 TED、WMT 和 WAT 的测试集上,超越了 WMT'19 的最佳结果,并且对于远程语言对(如俄语 /