机器学习友好的系统软件方法与技术
NASAC
机器学习/深度学习计算的速度与规模急剧扩大化导致分布式训练与推理系统中的系统软件方法与技术成为新的重大挑战,K8S平台的docker技术与Pytorch等平台的融合中涌现了资源监控、调度、管理和安全/隐私等多方面的挑战,云计算平台呼唤智能计算友好的分布式系统软件设计的新方法与新技术。本track将首先通过一个keynote来讲解在虚拟化软件方面对AI的支持,之后将有9篇论文从多个角度阐述对智能计算友好的分布书系统软件设计的思考。
论坛组织委员会:
宋 莹(北京信息科技大学)
孙毓忠(中国科学院计算技术研究所)
戚正伟(上海交通大学)
应 时(武汉大学)
论坛主持人:
戚正伟(上海交通大学)
孙毓忠(中国科学院计算技术研究所)
应 时(武汉大学)
日程安排:
时 间:2020年11月21日(星期六)11:00-12:30
2020年11月21日(星期六)16:00-17:30
地 点:重庆富力假日酒店 宴会厅2
论坛议程:
每篇论文10分种演讲2分钟提问
时 间 |
主 题 |
讲 者 |
Section1 |
||
11:00-11:40 |
面向新兴AI加速与计算芯片的新型虚拟化(40分钟演讲+8分钟提问) |
戚正伟,上海交通大学 |
11:48-12:30 |
一种基于关键配置的大数据应用云配置推荐方法 |
苏林刚,吴悦文,吴恒,刘赫,张文博,徐罡,中国科学院软件所 |
云环境深度学习系统技术综述 |
李伟民,孙毓忠,杨凯红,张浩,高碧辉,中国科学院计算技术研究所 |
|
面向 Android 的深度学习模型统一部署框架 |
向东伟,高天阳,刘渊强,刘譞哲,赵耀帅,吴格,马郓,北京大学 |
|
面向细粒度 FPGA 管理的 CNN 异构加速框架 |
郭开诚,吴承刚,张伟丰,戚正伟,管海兵,上海交通大学 |
|
Section2 |
||
16:00-17:30 |
基于嵌入层的大规模分布式推荐模型训练优化 |
白铠豪,陈全,郑启明,韦梦泽,郭慧丰,高勇,何秀强,过敏意,上海交通大学 |
面向深度学习的批处理矩阵乘法设计与实现 |
黄春,姜浩,全哲,左克,何楠,刘文超,国防科技大学 |
|
面向状态可变数据流的集群调度综述 |
许源佳,张文博,吴恒,吴悦文,杨晨,王焘,中国科学院软件所 |
|
NNTracer:面向深度学习的版本控制工具 |
Guochang Wang,Jingwei Xu and Chun Cao,南京大学 |
|
基于元算子的深度学习框架缺陷检测方法 |
谷典典,石屹宁,刘譞哲,吴格,赵耀帅,马郓,北京大学 |
论坛组织:
1. 组织者:宋莹
宋莹,博士,副教授,硕导,北京信息科技大学计算机学院数据科学与大数据技术专业教学负责人。2009年毕业于中国科学院计算技术研究所,获博士学位。现担任国际刊物《IEEE Transactions on Parallel and Distributed Systems》和《IEEE Transactions on Services Computing》、国内重要刊物《软件学报》等的评阅人。研究领域与方向:分布式计算、云计算、大数据计算平台。作为项目负责人承担国家自然科学基金面上项目1项、国家自然科学青年基金1项(已结题)、与华为横向合作课题1项,国家重点实验室和北京市重点实验室开放课题各1项;参与国家863计划、中国科学院创新计划等10余项项目。目前的研究重点是大数据存储优化及救援关键技术、出行大数据分析等。共发表学术论文30余篇,其中被SCI收录的论文有10余篇,单篇最高他引190余次(采用Google学术搜索检索),授权国内发明专利20余项。所在团队获2015年上海市科技进步一等奖和2016年国家科技进步二等奖。2018年获北京信息科技大学第十一届青年教师教学基本功比赛一等奖。2019年获北京市第十一届青年教师教学基本功比赛三等奖、最受学生欢迎奖。
2. 组织者:孙毓忠
孙毓忠,计算机体系结构国家重点实验室,中国科学院计算技术研究所,研究员、博士生导师,中国科学院“百人计划”获得者,共发表论文和专利100篇以上,论文它引400次。长期从事数据中心高效能和高安全性系统软件与运行时系统软件的设计与分析方法的研究,特别是在数据中心虚拟化技术和高效能调度技术的研究方面,课题组获得了上海市科技进步一等奖和国家科技进步二等奖。在云操作系统设计理论和方法方面形成了研究特色,体现在课题组承担的基金委重点课题“基于虚拟机架构的可信计算环境与可信软件设计”和“云数据中心基于应用共存特性的混合调度研究”等基金委基础研究课题,参与了李国杰院士牵头的基金委创新群体课题“超并行高效能计算机体系结构与设计方法研究”等其它基础研究课题方面;课题组也在高效能云操作系统关键使能技术方面通过承担的863课题“基于虚拟技术的新型网络服务器的研究”和“分布式I/O资源虚拟化技术研究”等在工程和关键技术方面验证了前述的基础理论研究。
3. 组织者:戚正伟
戚正伟,博士,上海交通大学电信学院/软件学院教授/博导,CCF杰出会员,CCF系统软件和理论计算机专委会委员,微软亚洲研究院访问教师、美国CMU大学访问学者(美方教授为Edmund Clarke,计算机图灵奖得主),担任国际会议ICSE 2017 PC 和国家“新一代人工智能”重大项目预评审专家等专家。主持一项国家重点研发计划课题,担任一项国家重大专项项目组副组长和一项科技部基础性工作专项副组长。主要研究方向为系统软件与程序分析,包括新型设备虚拟化(GPU/FPGA等)和新型“多虚一”虚拟化、云计算、异构加速计算等,2011年入选教育部新世纪优秀人才计划,获得上海市技术发明一等奖、教育部科技进步一等奖、教育部技术发明一等奖、国家科技进步奖二等奖各一项,主持四项国家自然科学基金,近年来发表SCI/EI索引论文80余篇(包括S&P、ASPLOS、ATC、PPoPP、MM、TPDS、TDSC、TSC 等),ESI高被引论文1篇。获得授权发明专利11项(转让3项),美国发明专利授权3 项等,出版译著《UNIX环境高级编程(第2版)》,为2008、2009年度畅销榜TOP50(China-Pub)。出版专著《BlewBluePill:深入理解硬件虚拟机》((获得IBM出版计划资助)和译著《UNIX高级环境编程(第3版)》(京东计算机与互联网图书2014/2015年度销售榜Top 100)。
4. 组织者:应时
应时,CCF软件工程专业委员会常务委员,武汉大学教授、博士生导师。主要从事计算机软件方面的科研、教学,以及应用软件开发工作。主要的研究领域:云计算与云服务软件、基于AI的大型复杂软件系统智能化运维管理、软件工程中的智能分析与优化等。主持并完成了多个国家级项目的研究,以及多个应用型项目的开发。已发表学术论文100多篇,曾获得国家科技进步二等奖、湖北省科技进步一等奖(3项)等奖项。
报告及嘉宾简介:
戚正伟:面向新兴AI加速与计算芯片的新型虚拟化
摘要:资源虚拟化与管理成为当前支撑云计算、大数据、机器学习等新型计算和应用模型的关键“卡脖子”技术,应用于从云数据中心到边缘智能终端等不同硬件尺度的“云网边端”场景中。目前硬件平台趋向于异构化和去CPU中心化,Intel首席架构师Raja Koduri提出“晶体管尺寸每缩小10倍,就会衍生出一种全新的计算模式”。当前计算模式分成标量计算、向量计算、矩阵计算和空间计算四类,CPU、GPU、ASIC和FPGA等是算力的主要承载硬件,GPU、FPGA等新型硬件成为算力输出的重要甚至主要部分,例如,单个Nvidia V100 GPU可提供高达100倍CPU的性能,但GPU与FPGA这类异构新型硬件虚拟化是大规模云系统核心技术,但长期滞后于传统CPU虚拟化。本报告面向新兴AI加速与计算芯片的资源虚拟化需求,讲述新型设备虚拟化及新型“多虚一”虚拟化的当前进展、核心技术和发展趋势,以及分享在系统研究方面论文写作的一些心得体会。
简介:戚正伟,博士,上海交通大学电信学院/软件学院教授/博导,CCF杰出会员,CCF系统软件和理论计算机专委会委员,微软亚洲研究院访问教师、美国CMU大学访问学者(美方教授为Edmund Clarke,计算机图灵奖得主),担任国际会议ICSE 2017 PC 和国家“新一代人工智能”重大项目预评审专家等专家。主持一项国家重点研发计划课题,担任一项国家重大专项项目组副组长和一项科技部基础性工作专项副组长。主要研究方向为系统软件与程序分析,包括新型设备虚拟化(GPU/FPGA等)和新型“多虚一”虚拟化、云计算、异构加速计算等,2011年入选教育部新世纪优秀人才计划,获得上海市技术发明一等奖、教育部科技进步一等奖、教育部技术发明一等奖、国家科技进步奖二等奖各一项,主持四项国家自然科学基金,近年来发表SCI/EI索引论文80余篇(包括S&P、ASPLOS、ATC、PPoPP、MM、TPDS、TDSC、TSC 等),ESI高被引论文1篇。获得授权发明专利11项(转让3项),美国发明专利授权3 项等,出版译著《UNIX环境高级编程(第2版)》,为2008、2009年度畅销榜TOP50(China-Pub)。出版专著《BlewBluePill:深入理解硬件虚拟机》((获得IBM出版计划资助)和译著《UNIX高级环境编程(第3版)》(京东计算机与互联网图书2014/2015年度销售榜Top 100)。