Coding,the witchery of the real world

0%

读论文之Massively Multilingual Transfer for NER

0. Reference and Abstract(In EndNote)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
%0 Conference Proceedings
%T Massively Multilingual Transfer for NER
%A Rahimi, Afshin
%A Li, Yuan
%A Cohn, Trevor
%S Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics
%D 2019
%8 jul
%I Association for Computational Linguistics
%C Florence, Italy
%F rahimi-etal-2019-massively
%X In cross-lingual transfer, NLP models over one or more source languages are applied to a low-resource target language. While most prior work has used a single source model or a few carefully selected models, here we consider a “massive” setting with many such models. This setting raises the problem of poor transfer, particularly from distant languages. We propose two techniques for modulating the transfer, suitable for zero-shot or few-shot learning, respectively. Evaluating on named entity recognition, we show that our techniques are much more effective than strong baselines, including standard ensembling, and our unsupervised method rivals oracle selection of the single best individual model.
%R 10.18653/v1/P19-1015
%U https://www.aclweb.org/anthology/P19-1015
%U https://doi.org/10.18653/v1/P19-1015
%P 151-164

也许整个自动转换常用文献格式简单映射到markdown的插件挺不错,大概这轮子应该有了

1. Before

1.1. Two point

Low-source 资源比较少的,来源比较少的

High-source 资源比较丰富的,来源比较多的

1.2. Target

  • 跨语言迁移学习的多语言新方法
    • 知识从高资源语言转换低资源语言
    • 翻译的质量问题

1.3 .State of art

一方面

  • 弥补数据不足
    • parallel corpora或其他多语言资源进行注解投影(annotation projection)的形式
    • 可移植的表示形式
      • 语音转录
      • 密切相关的语言
      • 双语词典
  • 问题
    • 可转换的知识限制在了一种语言源

另一方面

  • 多语言源
    • 语法,单词什么的可能和很多源像语言像
    • 对于例外情况
      • 多任务学习
      • 几种语言的注释投影
  • 问题
    • 没有对质量的充分保证
    • 本质是归一化各个源语言的权重加权

1.4. This paper

few shot models

  • 估算每个模型的可靠性和它的patterns of mistakes

  • 贝叶斯模型的一部分

    The key insight is that while the majority of poor models make lots of mistakes, these mistakes are diverse, while the few good models consistently provide reliable input.

    • 无需显式监督来推断出可靠的模型
    • 减少了噪音对于准确判断的影响(这里不是很理解,我猜测可能因为准确模型比坏模型要多了一些可靠的,作为判断它可靠依据的东西)
  • 受到监督的方法

    • 带注解的小语料库
      • 贝叶斯模型评估
      • 对低资源监督模型的显式模型和微调

1.4.1. Approaches

  • 相似性
  • 分类器vote(投票?) 融合 均匀融合,,

效果都不是很好~~


固定源语言模型于源语言的人工选择相比表现更差一点

  • 新的学习方法

    • BEA模型
      • 识别出带来更好效果的模型(翻译效果可能更好的)

    1571332861660

    • Zero shot transfer效果较好
    • RaRe(Ranking Retraining)
      • Few-shot NER transfer(加上一些监督更好了)

1571332125801

1571332299681

涉及到贝叶斯算法的部分,,,暂时因为不会接触到,所以没有好好去理解的打算

1.4.2. Conclusion

  • 单一模型翻译效果参差不齐
  • uniform ensembling(集成学习?) 对单一最佳模型负面影响较大
  • 本篇的zero-shot(few-shot)方法好很多,并且还可以进一步提升

3. Others

3.1. Tips

  • 多源语言辅助翻译
    • 一下子无法确切的知道需要翻译的是哪个语言
    • (中文就不存在这个问题hhh瓜娃子。。。和小赤佬就是个问题)
  • 需要估算翻译质量
    • uniform voting 效果不佳
  • 对目标语言做小的训练是有帮助的

3.2. Future work

  • 将所有脚本映射到IPA或罗马字母(适用于共享字符级的嵌入翻译)
  • 我们是否可以根据语言特征来估计特定目标语言的源模型/语言的质量
  • 技术应适用于NER以外的其他任务

3.3. Resources

Massively Multilingual Transfer for NER

Presentation Slide

Paper in PDF