报告题目:神经机器翻译中数据增强方法及应用
报告人:王星(腾讯人工智能实验室 高级研究员)
报告时间:2022年10月24号19:00-20:00
地点:腾讯会议 686-242-404
报告摘要:近年来,基于深度学习的神经机器翻译(Neural Machine Translation)获得迅速发展。在神经机器翻译模型落地到实际应用场景中,数据增强技术扮演着重要的角色。在本次报告中,我将首先介绍我们在在数据增强方面针对神经机器翻译的不同场景(监督/半监督/无监督)所做的前沿技术探索。然后,我将会介绍我们在参与WMT2022国际翻译评测极低资源场景(利沃尼亚语-英语)中所面临的挑战及解决方案。最后,我将简要介绍我们在手语翻译研究所做的数据增强探索工作。
参考论文:
论文1:Wenxiang Jiao, Xing Wang, Shilin He, Irwin King, Michael Lyu and Zhaopeng Tu. Data Rejuvenation: Exploiting Inactive Training Examples for Neural Machine Translation. EMNLP 2020.
论文2:Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Shuming Shi, Michael Lyu and Irwin King. Self-training Sampling with Monolingual Data Uncertainty for Neural Machine Translation. ACL 2021.
论文3:Zhiwei He, Xing Wang, Rui Wang, Shuming Shi, Zhaopeng Tu. Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation. ACL 2022.
论文4: Zhiwei He, Xing Wang, Zhaopeng Tu, Shuming Shi, Rui Wang. Tencent AI Lab-Shanghai Jiao Tong University Low-Resource Translation System for the WMT22 Translation Task. WMT2022
论文5: Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu2Scaling Back-Translation with Domain Text Generation for Sign Language Gloss Translation. arxiv 2022
报告人简介:王星,腾讯公司人工智能实验室(Tencent AI Lab)高级研究员,2018年博士毕业于苏州大学,导师张民教授,主要从事机器翻译相关的研发工作。在人工智能和自然语言处理相关顶级会议和刊物上发表论文约三十篇,其中自然语言处理顶级会议ACL/EMNLP/NAACL发表论文18篇,人工智能顶级会议AAAI发表论文4篇,目前Google引用数约900。在WMT国际翻译评测多个赛道获得评测比赛第一名。作为企业研究计划项目负责人联合主持的科研项目获2020年度腾讯AI Lab犀牛鸟专项研究计划技术创新奖(前10%)。曾在第十八届全国机器翻译大会CCMT2022进行讲习班报告。目前担任中国中文信息学会青年工作委员会委员。个人主页://xingwang4nlp.com/