学术报告：迁移强化学习方法及应用

时间: 2021-07-26 发布者: 文章来源: 博彩平台 审核人: 浏览次数: 1682

报告题目：迁移强化学习方法及应用

报告人：章宗长（南京大学人工智能学院）

报告时间：7月28日上午9:00

报告地点：线上

报告摘要：迁移强化学习是近年来强化学习领域的研究热点。其核心思想是将迁移学习中的学习方式应用在强化学习任务的学习过程中，从而帮助智能体在学习目标任务时，借鉴与其相似任务上的知识，以提高在目标任务上的学习效率。在本次报告中，我将先简要介绍我们组正在探索的一些智能决策课题，然后介绍我们近期在迁移强化学习方面做的三个工作。一是基于策略重用思想的策略迁移框架，其特点是在强化学习框架的基础上加入选项模块，用于迁移合适的源策略。二是用于非稳态马尔科夫博弈任务的深度贝叶斯策略重用方法，其特点是使用基于贝叶斯规则的对手建模来推断其他智能体的策略，并使用蒸馏策略网络来取得高效的在线策略学习和重用。三是使用序列结构的跨模态领域自适应方法，其特点是利用强化学习任务中数据采样过程的序列特点，学习从目标领域表征到源领域表征的映射关系，进而得到低成本的跨模态领域自适应方法。最后，我将简要介绍我们组在迁移强化学习落地应用方面所做的一些尝试。

个人简介：

章宗长，南京大学人工智能学院副教授。现为计算机软件新技术国家重点实验室成员，机器学习与数据挖掘研究所（LAMDA）成员，中国计算机学会（CCF）高级会员，CCF人工智能与模式识别专委会委员。2012年于中国科学技术大学获得博士学位，曾在苏州大学工作5年，并先后在罗格斯大学、新加坡国立大学、斯坦福大学开展研究工作。研究方向为强化学习、智能规划和多智能体系统。已在国际会议（AAAI、ICML、IJCAI、NeurIPS等）和国内外期刊（JAAMAS、JCST等）发表论文40多篇，获授权的国家发明专利12项。共同发起了亚洲强化学习系列研讨会。担任期刊FCS的青年编委（2019 - ），AAAI、IJCAI、ECAI、ICAPS等CCF A/B类会议的高级程序委员。近年来主持国家自然科学基金2项、省市校级科研项目多项，与华为、阿里巴巴等企业有科研合作。入选南京大学第二批“紫金学者”（2021）。