博彩平台 导师论坛
时间: 2013-12-16 发布者: 文章来源: 博彩平台 审核人: 浏览次数: 567

 

导师简介

  ,男,196910月生,教授,博士生导师。 2004年毕业于吉林大学计算机软件与理论专业,获博士学位, 南京大学软件新技术国家重点实验室博士后。近年来,共主持了“石油勘探开发分布式数据库建设”、“基于tableau的非经典逻辑经典化的自动定理证明研究”等国家级项目4项,主持了“采油工程信息可视化系统”、“油田信息处理网络系统”、“非经典逻辑 tableau研究”等省部级和市(局)级科研项目10多项,获省部级科技进步奖 2项,市(局)级科技进步奖 8项。先后在国内外学术会议及《计算机学报》、《计算机研究与发展》、《计算机科学》等国内核心期刊和统计源期刊上发表论文六十多篇,其中 10篇被SCl检索,32篇被 EI检索。目前主要研究方向为:软件系统分析与设计、分布式数据库检索及修正、网络信息安全及处理、地理信息系统、管理信息系统及决策支持系统、机器学习及自动推理等。目前部分研究被国家自然基金项目 “基于tableau的非经典逻辑经典化的自动定理证明研究”和“面向tableau模型的逻辑强化学习理论及方法研究”、教育部重点项目 “网络中不相容信息的检索及修正”、国家博士后基金项目“基于强化学习的个性化搜索引擎的研究”、江苏省博士后基金“部分感知强化学习方法研究及实现”、江苏省高校基金 “分布式数据库不相容信息处理技术研究” 等课题资助。

 

主讲内容:

题目:强化学习

摘要:机器学习是实现机器智能的一个关键技术.在机器学习领域,根据反馈的不同,学习技术可以分为监督学习(Supervised learning)、非监督学习(Unsupervised learning)和强化学习(Reinforcement learning)三大类。其中强化学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大.从20世纪80年代末开始,随着对强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用也日益开展起来,成为目前机器学习领域的研究热点之一.目前已经成为制造业过程控制、作业调度、路径规划、WEB信息搜索等领域,是目标行为优化的一种重要技术.

本次报告主要阐述解决强化学习问题的三个基本方法:动态规划(DP)、Monte CarloMC)、时间差分(TD)及其关系。

 

时间:1218(周三)1400-1600

 

地点:理工楼103

 

 

博彩平台

                                                                                                                                    2013.12.16