编程现场大数据
NASAC
软件产业是新时代下我国优先发展的先导型和战略性产业。现代软件日益复杂,具有深度行业渗透、广度领域融合、高度行为交互的特征。常态化的大规模跨地域协同开发、急速膨胀的编程现场大数据、以及急剧提升的即时响应要求,给软件的快速高质量开发带来了全新挑战。因此,如何利用海量编程现场大数据,通过构建新型智能化软件开发方法与环境,提升软件开发的生产率与品质,成为软件产业的重要科学问题。本论坛围绕编程现场大数据方向,邀请我国工业界和知名高校相关课题组报告本领域最新进展,共同推动编程现场大数据研究。
论坛组织委员会:
李 涛(百度公司)
李 戈(北京大学)
江 贺(大连理工大学)
日程安排:
时 间:2020年11月20日(星期五)08:30-11:40
地 点:重庆富力假日酒店 宴会厅5
论坛主持人:
李 涛(百度公司)
论坛议程:
时 间 |
主 题 |
讲 者 |
08:30-08:55 |
开源模式引领技术创新 |
徐勇,开源中国 |
08:55-09:20 |
编程大数据与企业研发平台建设的思考 |
沈伯青,中汇信息技术(上海)有限公司 |
09:20-09:45 |
面向Python软件生态系统的缺陷分析 |
陈林,南京大学 |
09:45-10:10 |
API推荐-从传统到现代 |
周宇,南京航空航天大学 |
10:10-10:25 |
茶 歇 |
|
10:25-10:50 |
设计模式挖掘、分析与统一表示 |
江贺,大连理工大学 |
10:50-11:15 |
基于深度学习的代码生成与补全研究进展 |
李戈,北京大学 |
11:15-11:40 |
基于编程现场大数据的研发效能提升 |
彭云鹏,百度公司 |
报告及嘉宾简介:
1. 徐勇:开源模式引领技术创新
摘要:开源奠定了现代软件的基石,不断吞噬着技术栈,推动着互联网、云计算、人工智能等技术以前所未有的速度迭代,不断颠覆着 IT 产业的竞争格局。中美角逐已由贸易战发展到科技创新之争,通过开源模式引领技术创新,将成为加速自主创新的必然选择。
简介:徐勇,开源中国COO,从事IT产业超过 20 年,曾在 ORACLE,Red Hat、FICO等著名软件公司负责中国区业务,对软件行业特别是开源软件有深刻行业理解。
2. 沈伯青:编程大数据与企业研发平台建设的思考
摘要:来自中汇信息技术(上海)有限公司的沈伯青高级工程师,结合公司既有的编程研发现况,给出企业在研发平台建设、研发效能提升上的一些思考。尝试聚焦于代码开发、集成开发工具、研发工具链整合等内容,通过AI技术的引用帮助代码辅助开发、代码智能搜索,用于提升代码开发效率;此外,尝试通过代码大数据技术进行代码风险分析、代码重复度识别、构件安全预警等方面,用于提升代码质量与安全;最后,尝试进行开发者画像、建立开发者社区,用于促进开发者之间的技术沟通和共享、激活企业工程师氛围、全面提升企业研发效能……
简介:沈伯青,中汇信息技术(上海)有限公司高级工程师,CCF通讯会员,长期从事于企业IT架构研究与落地、企业应用系统架构设计与方案评审等工作,主导企业级应用开发框架、集成开发工具的研发和推广。目前主要致力于企业研发平台的规划和落地等相关工作。
3. 陈林:面向Python软件生态系统的缺陷分析
摘要:Python语言在科学计算、人工智能等领域得到了日益广泛的应用,迅猛增长的Python软件彼此依赖形成了软件生态系统,其中的跨项目缺陷往往会带来更大的危害和影响,也给缺陷的定位和修复带来更多挑战。本报告以Python科学计算软件生态系统为例,介绍了软件生态中跨项目缺陷的常见形态、上下游开发者协同定位与修复实践的挑战与机遇等,提出了一种面向软件生态系统的缺陷影响分析方法。
简介:陈林,南京大学计算机科学与技术系,副教授,博士生导师。2009年于东南大学计算机科学与工程学院获博士学位,2015至2016年在美国普渡大学做访问学者。研究兴趣包括程序设计语言与程序分析、开源软件生态的分析测试等,在包括ACM TOSEM、IEEE TSE、ICSE、FSE、ASE等在内的软件领域权威期刊会议发表论文60多篇,主持和参与国家自然科学基金面上和重点项目、国家重点研发计划项目等,多次获得省部级科技进步一等奖和二等奖。
4. 周宇:API推荐-从传统到现代
摘要:API推荐是集成开发环境(IDE)中的关键功能之一,对于提高软件开发效率起着重要作用,当前主流IDE都提供了基本的API推荐功能,但存在准确度不高、个性化程度低等问题。本报告简要回顾了API推荐的发展,介绍了我们近期在这方面的若干工作进展,针对传统API推荐中存在的问题,从情境建模、人机融合等角度出发,充分利用开源社区的大数据、大代码,结合代码上下文、开发人员画像、用户反馈等多维信息,通过智能化使能技术,有效提升API推荐的准确度和个性化程度。
简介:周宇,男,南京航空航天大学教授,博导。研究方向为软件工程、分布式计算技术,主要包括智能化软件开发、软件演化分析和验证、云计算和大数据技术等。中国计算机学会高级会员,中国计算机学会系统软件专委会委员、软件工程专委会委员,江苏省计算机学会软件专委会副主任委员,江苏省软件工程标准化技术委员会委员。近年来主持国家及省部级项目多项,在国内外重要学术杂志和学术会议,如IEEE TSE,ICSE,中国科学,软件学报等发表论文80余篇,出版英文学术专著2部,申请国家发明专利20余项,授权发明专利10余项,转化2项。
5. 江贺:设计模式挖掘、分析与统一表示
摘要:软件设计模式以复用成功设计范例的方式提升软件系统设计的效率和质量。由于设计模式的实践过程较多地涉及到人类主观活动,存在一些颇具挑战性却在已有研究中鲜有提及的问题。例如,如何在众多设计模式中找到重点与关注点?如何形成更具时效性的设计模式文档?如何利用好设计模式的自然语言数据进行任务辅助?为此,我们尝试使用数据驱动的方法来解决这些问题。首先,我们基于大型软件信息平台数据对设计模式的现状进行分析,从而方便从总体上了解和掌握设计模式;然后,我们使用文本挖掘技术从网络众智数据中获取设计模式的相关资料,从而帮助构建与当前编程技术紧密相关的设计模式文档;最后,我们使用词嵌入技术对设计模式和自然语言进行统一建模,从而支持基于文本信息的设计模式相关任务。我们期望通过这些研究来更好地辅助设计模式的实践。
简介:江贺,大连理工大学教授、博导,国家优秀青年科学基金获得者(优青)。目前主要研究兴趣为智能软件工程。先后在ACM/IEEE系列汇刊TOSEM、TSE、TKDE、中国科学等期刊及ICSE、ASE 等国际会议发表论文70余篇。担任IEEE TR、JSEP、FCS、计算机科学等期刊编委。多次承担国家自然科学基金项目、国家重点研发课题,并长期与华为、百度等企业开展合作。先后获得大连市五一特等奖章、中国计算机学会优秀博士学位论文指导教师、全国NASAC青年软件创新奖、ACM SIGSOFT 杰出论文奖。
6. 李戈:基于深度学习的代码生成与补全研究进展
摘要:通过自动化的方法完成程序代码的生成,是AI领域与软件领域的研究们共同的愿望。本报告首先对AI领域和SE领域在代码生成方面的最新的代表性成果进行介绍;对主讲人所在研究团队在“基于深度学习的代码分析与生成方面”的研究工作进行介绍;进而,对主讲人所在研发团队发布的“aiXcoder智能编码引擎”成果的最新进展与应用情况进行介绍。期望通过这个汇报交流与各位参与者建立更加广泛的合作。
简介:李戈,北京大学信息科学技术学院计算机科学技术系副教授,主要研究领域:程序分析与生成,深度学习与知识工程。毕业于北京大学计算机系,曾赴斯坦福大学计算机系人工智能实验室从事深度学习方面的合作研究,任职访问副教授,CCF软件工程专委会秘书长。所在研究团队聚焦于基于机器学习概率模型的程序语言处理、程序分析与生成等,在程序代码理解、代码自动生成、代码特征检测等方面一直保持着国际上领先的研究成果,在NIPS/AAAI/IJCAI/ACL/ICSE/ASE/ICPC/TOSEM/EMSE等发表论文70余篇,曾获教育部高等学校科学研究优秀成果奖科技进步一等奖,CCF科学技术奖技术发明一等奖。科研转化成果aiXcoder正在为多家头部企业的开发者提供服务。
7. 彭云鹏:基于编程现场大数据的研发效能提升
摘要:研发效能的提升是每一个研发组织/团队亘久不变的话题和不断探索的目标,而近几年来,随着DevOps的快速发展,研发活动的高度在线化,产生了海量的编程现场大数据,它将会对研发效能提升带来怎样的影响,如何构建数据度量-驱动提升-验证效果的完整闭环,让我们一起探讨基于编程现场大数据的研发效能提升之路。
简介:彭云鹏,百度代码服务团队经理,负责百度代码托管平台、代码检查平台,代码搜索服务、云IDE工作台等业务,百度一级专利发明人,名下国内外发明专利34个,已获授权15个,国家重点研发计划“基于人机结对编程与协同进化的智能敏捷开发云平台”技术骨干,曾任2019移动互联全国创新大赛决赛专家评委。