世界城市的移民社区融入
该研究使用基于代理人的模型,在社交媒体平台 Twitter 上收集的创新性单词数据集基础上,揭示了文化创新传播的地理模式取决于身份认同和网络拓扑结构的交互作用。网络贡献了弱关联扩散,而身份认同则对强联系扩散起着不同寻常的作用,两者结合才能更好的解释文化创新的传播。
Feb, 2022
借助迁移相关的社交媒体平台上的代码混合这一多语言演讲方式,我们提出了 “多语言代码混合文本的整体学习识别”(ELMICT) 的新方法,通过结合多个标记化器输出和预训练语言模型的集成学习技术,ELMICT 在识别各种语言和语境下的代码混合方面表现出高性能 (准确率 F1 大于 0.95),特别是在跨语言零样本条件下 (平均准确率 F1 大于 0.70)。此外,利用 ELMICT 还可以分析与其他主题类别相比,迁移相关的线图上的代码混合的普遍性,从而揭示出移民社区关注的话题。我们的研究结果揭示了移民在社交媒体平台上采用的沟通策略,为开发包容性数字公共服务和对话系统提供了有益的启示。通过解决本研究提出的研究问题,我们有助于理解移民语言多样性,并为建设多元文化社会中建立信任的更有效工具铺平了道路。
Jun, 2024
欧洲和移民的在线信息传播很少从外部视角进行研究。本文通过从社交媒体(Twitter)中获取大量数据来分析关于欧洲和移民的在线信息的传播话题、规模和动态,结合转发和主题标签网络分析、用户地理位置定位等,从 “欧洲外部” 视角,特别关注非洲,揭示了各语言之间跨语言引用的全新方式,结果表明大部分在线讨论发生在国家层面,尤其是讨论移民时,而英语是信息跨国传播和扩散的关键,欧洲为主要内容生成地并在外部放大。值得注意的是,在讨论移民相关话题的社群中,重要的节点包括官方机构和国际组织的账号,以及记者、新闻评论员和活动家。
Feb, 2024
本研究通过分析两个真实数据集来探究人类社交关系对其移动范围的影响,首先开发了一种衡量人们社交多样性的方法,即 “社区熵”,其次,利用机器学习技术来预测移动轨迹,实验表明预测效果良好。
Aug, 2014
该研究利用 Arnold van Gennep 的人类学工作《Les Rites de Passage》中的分离 - 转换 - 吸收框架,探讨难民从家到庇护国的旅程的四个阶段,并证明了多模态语言和图像识别模型结合的性能胜过单模态模型,并且在 2022 年乌克兰难民危机中表现良好,F1 分数为 71.88%
May, 2022
该研究描述了在线空间(即社交媒体语言数据)和真实世界空间(即新西兰的分行政区域)的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标,并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明,有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化,但需要进一步研究来了解社交媒体如何代表真实世界行为。
Aug, 2023
本文研究了三种自动语言识别方法与 Twitter 用户界面语言设置和语言人工编码之间的可靠性,比较了用户输入的个人资料位置与实际发推地点之间的不同,证明了用户生成的资料位置无法用作推特信息发布的有用代理。
Aug, 2013
采用 Twitter 数据,研究英语和西班牙语的语言统计学,特别是不同尺度的排名多样性以及 Twitter 专属标记的统计学,发现在语法尺度上,即使在不同的尺度、语言和国家值下,排名多样性曲线最相似。结论有助于量化语言统计特征的普遍性及其带来的变化。
Jul, 2022
本文从实证及计算两方面主要探讨使用更多的语言类型学数据作为语言史前迁徙、语言之间深层系统关系及语言交互模式更准确研究和预测的可行性,重点解决了实证方法、计算模拟等方面的问题,并得出通过语言类型学数据能得出新的语言史前迁徙证据的结论。
Jul, 2006
利用在线社交网络微信的用户位置签到,开发数据驱动的北京城市文化规划框架,利用时空表示和扩展的潜在狄利克雷分配模型,识别潜在的城市文化互动模式,并确定了城市区域不同类型文化资源的需求和供应水平,进而指出了缺乏文化资源的城市区域,以提高城市文化规划和投资优化的建议。
Jun, 2018