- 使用 HED-IT 进行精调:人工后期编辑对对话式语言模型的影响
本研究通过调查人类干预对机器生成数据进行微调对话模型的影响,证明了人类后编辑对话相较于自动生成的对话在感知质量上具有显著提高,并且使用后编辑对话进行微调会导致生成输出有明显差异。此外,该研究认为数据质量对较小的模型影响重大,而对较大的模型影 - 从语言学资讯中学习音位组合规则
使用与语言相关的数据来学习语法的互动学习方法,通过信息论策略选择询问或合成数据并从语言学者处获得反馈,有效率地实现语言学习。
- 101 亿阿拉伯语词汇数据集
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词 - 词梯:一款语义数据收集的移动应用程序
Word Ladders 是为收集语言数据而开发的免费移动应用程序,通过语义关系的分类包含来构建相关单词列表,同时具有 nlp 任务和认知科学开放问题的预期结果和应用。
- 代表和计算语音复原中的不确定性
通过最近提出的自动化传统比较方法某些方面的方法的成功,以及灵感来源于改进的同源词集自动预测方法,我们提出了一个新的框架,允许在语言重建中表示不确定性,并包含从语言数据计算模糊重建的工作流程。
- 解耦语言预训练引导视觉 - 语言学习
该论文提出了一种新的方法,使用 Prompt-Transformer 模型,基于语言数据而不是图像 - 文本配对来预测理想 prompts,从而优化了资源密集型视觉语言预训练过程,提高了大语言模型的性能。
- 个性化状态焦虑检测:一项基于语言生物标志物和机器学习流水线的实证研究
该研究利用数字生物标记和机器学习技术来检测社交情境中的情绪状态,并发现个性化方法可以更准确地检测情绪状态。研究结果表明,数字生物标记在无干扰的情况下可以识别出社交情境中的焦虑情绪,这将有助于有效评估社交问题和精神健康问题。
- 现实与语言数据的限制
这篇研究使用一个新颖的推理测试来探索语言数据对于计算机理解物理世界的可行性,并强调模型可能直接从纯语言数据中学习的内容。
- 人工神经网络对人类语言习得的启示
通过使用机器学习及自然语言处理技术,研究语言习得过程,探讨如何让模型学习在有限的语言输入下获取语言知识,以验证关于人类语言学习本质的假说。
- ACL估计语言分布的熵
本文研究了 Shannon 熵在语言学任务中的应用,重点关注从可观察的语言数据中估算熵的效果,并通过两个信息论语言学研究的复制实验发现,由于过度依赖不良熵估算器,报告的效应大小被高估了。最后我们提出了针对不同类型分布和数据可用性的熵估算建议 - CVPR通过无监督任务发现的迁移学习,用于视觉问答
通过使用视觉和语言数据,利用无监督任务发现学习一个任务特定的视觉分类器,并将其转移到视觉问答模型中作为答案单元,以解决视觉问题中的词汇表外问题,并通过从视觉数据转移的知识成功推广以应对此问题。
- MM俄语网络搜索结果的语义聚类:可能性和问题
本研究为了解决搜索引擎语义检索问题,探讨了从俄语大规模语料库中构建词汇共现图,运用分布式语义模型对于词义归纳和聚类的方法。