【专访】KDD2018主席熊辉教授:数据挖掘与深度学习结合新趋势

摘要: 2015年开始,数据挖掘领域出现了一些非常有意思的研究,比如熊辉教授做的利用大数据分析“抓小偷”的研究

12-11 02:14 首页 新智元

1新智元原创  

作者:胡祥杰


【新智元导读】KDD2017 大会熊辉教授和团队总共有8篇文章被接收(包括oral),去年他们团队的论文被接收数量是9篇,可谓非常高产。在采访中,熊辉教授谈到了数据挖掘新趋势的最新趋势,比如与深度学习的结合。在应用上,他分享了“治理雾霾”的应用原理。



2017年8月13日至17日,数据挖掘国际顶级学术会议 KDD2017在加拿大哈利法克斯市举行。本次大会总的注册人数达到1656人,来自全世界51个国家和地区。其中,美国注册人数最多,其次是中国,第三是加拿大。


关于本次大会论文接受数据、中国学者和公司的表现以及最佳论文、最佳论文请参见新智元此前的报道《【KDD最佳论文出炉】BAT、华为谷歌论文排行榜,中国包揽KDDCUP》。


大会同时宣布了KDD2018年大会的主席名单。美国罗格斯-新泽西州立大学信息安全中心主任、罗格斯商学院管理科学与信息系统系熊辉当选 Research Track PC 主席。


熊辉 E- Mail:hxiong@rutgers.edu ;实验室主页:http://datamining.rutgers.edu


熊辉教授本科毕业于中国科学技术大学,博士毕业于美国明尼苏达大学,目前为美国罗格斯-新泽西州立大学信息安全中心主任、罗格斯商学院管理科学与信息系统系副系主任、正教授 (终身教授)、RBS院长讲席教授,并担任中国科学技术大学大师讲席教授。


熊辉教授主要研究领域涵盖数据挖掘、大数据、人工智能;获得的部分荣誉包括ACM杰出科学家,长江讲座教授,海外杰青B类(海外及港澳学者合作研究基金)。熊辉教授的研究工作被Forbes, The Economist,Harvard Business Review,The Wall Street Journal等媒体广泛报道。其中,经济学人杂志(The Economist)在2016年专文重点介绍了熊辉教授利用大数据技术预防犯罪的研究工作 (Economist Article Title: Cutpurse capers),同时哈佛商业评论在2016年也以专文重点介绍他的关于人力大数据分析的前沿工作。


KDD高产学者:今年被接收文章有8篇;中国学者学术地位大幅提升


据介绍,本次大会熊辉教授和团队总共有8篇文章被接收(包括oral),去年他们团队的论文被接收数量是9篇,可谓非常高产。要知道,相比之下,在本年度KDD接收的 200 多篇论文里,来自中国大陆的高校和企业只有 20 多篇。


另外,本届KDD上 China Chapter,熊辉教授与裴健、郑宇和叶杰平等多位顶尖的学者一起组织了精彩的分享。


熊辉对新智元介绍说:“在本届KDD China Session, 我介绍了在大数据人才智能化分析这一世界前沿领域的创新工作。区别于传统人力资源管理须通过大量长期实践才能总结出经验规则,永远在解决问题,管理相对滞后。大数据人才智能化管理通过数据挖掘提供客观性,完整性,透明性,预测性分析,可以让管理做到更加客观,公正,未雨绸缪。具体来说,我从人才、组织和文化三大人才管理业务场景出发,介绍了一整套针对业务痛点的智能化人才管理工具和解决方案,所介绍的人才智库系统是基于我们自主开发的数十项智能化机器学习模型算法工具,有效支持和辅助了人才获取、人才保留、人才发掘、组织稳定等一整套管理动作。我们构建的这套完整的智能化人才管理系统,充分展示了以大数据驱动智能化人才管理的高效性,在世界范围内尚属首创。”


近年来,中国学者在KDD学术会议上的存在感逐渐变强,表现非常突出。对此,熊辉教授也有感受,他说:“中国学者这几年在各个研究方向都在快速成长和突破。我具体感觉体现在两个方面。首先是大量高水平的论文发表,并伴生大批的优秀青年学者;其次是中国学者学术地位的大幅提升,越来越多的中国学者担任行业顶级会议的组织者和顶级期刊的编委甚至主编。”


今年论文接受率最高只有12.8%, 为什么KDD的论文录取率那么低?



数据显示,今年KDD研究Track共审阅了748篇论文,共接收130篇,其中口头展示64篇,海报展示66篇,接收率分别为8.6%和8.8%。数据科学应用Track 共审阅了390篇论文,共接收86篇,其中口头展示36篇,海报展示50篇,接收率分别为9.2%和12.8%。


KDD向来以论文接受率低著称。被问及大会接受率为何如此低,熊辉教授向新智元介绍说,KDD是数据挖掘和数据科学领域最顶级的学术年会。来自学术界,工业界和政府部门的研究人员都希望在KDD上发表和展示自己的有影响力的工作,因而投稿量每年都特别大,所以KDD的接收率一直非常低。另外,非常多的高科技公司人力资源部门都积极招聘在KDD以第一作者发表过论文的学生,所以学生也都非常有投稿热情,这也客观导致文章接受率低。 


KDD新趋势:传统行业与大数据,机器学习,人工智能技术的结合将会成为一个新的战场和制高点


新智元在采访中问到,近两年KDD领域最值得关注的趋势是什么?


熊辉教授认为,近两年,数据挖掘,机器学习和人工智能技术,不仅仅和新兴互联网产业结合紧密,和传统产业的相互结合和促进,也成为了一个新亮点。比如,根据人们传统的理解,人力资源行业是一个组织行为学科,是很难被量化的。我们的人才智能化的项目展示了通过大数据分析提供客观性,完整性,透明性,预测性分析,可以让管理做到更加客观,公正,未雨绸缪。又比如,工业制造行业,似乎也是很难拥抱大数据和人工智能技术。但是,在工业制造4.0的标准里,人工智能技术,将会成为传统工业制造涅槃重生的引擎。他说:“我相信传统行业与大数据,机器学习,人工智能技术的结合将会成为一个新的战场和制高点。”


那么,近年来,KDD领域向机器学习和实际应用的结合非常紧密,这是一个大趋势么?


熊辉教授认为这是一个大趋势。他进一步解释说,首先人类在世界任何一个角落,任何一个时间,任何一类的行为,都以不同数据的形式开始保存了下来。在人类历史上,我们从来没有这么好的机会能够通过细致化,全面化的数据,深入毛孔的了解人的行为,发现行业的痛点。所以,未来KDD领域向机器学习和实际应用的结合会越来越紧密,而且未来越来越多KDD的研究问题会来源于应用实践。


具体到深度学习。熊辉教授认为,大数据+深度学习,目前是很多领域的非常热门的一类技术解决方案。深度学习在拥有大数据的很多应用领域展示了自己独特的优势,比如语音识别和图像处理。然而,他的个人观点是,深度学习就像任何一种技术都有它的局限性,也有它的适用范围在KDD领域,他相信会有很多研究专注于深度学习的参数选择,降低计算复杂度和结果的可解释性。


数据挖掘高手谈数据:什么样的数据才是好数据?


作为在数据挖掘领域有着深厚积累的资深教授。熊辉教授如何看待数据?怎么样的数据才能是好数据?要怎样获得这些好数据呢?


熊辉教授认为,要获得高效优质的数据,我认为应该同时考虑“量”和“质”。 量,不仅仅是指数据量的大,还包括是否有效覆盖所要研究课题的不同的对象,即统计里的population;“质”指的是数据信息的有效性,即我们的数据的噪声程度,是否包括具体问题分析所需的各种属性,是否存在和易于构建内在的关联性,是否能有表征丰富的语义,是否能够支持快速计算和分析。 


对于大数据。他认为,数据不是简单的越大越好,而是和需要解决的问题相关的数据越大越好。在很多具体数据分析应用,特别是商务智能中,还要注意大数据和小数据的有效结合。

 

AI的迅速发展也为数据挖掘领域带来了一些有趣的变化,比如数据的发现和挖掘的自动化,就是由机器来自动完成数据挖掘的工作。针对这一研究方向,熊辉教授向新智元介绍说:“在学术界,已经有一些学者开始尝试探索自动化的数据挖掘,一个潜在方向是Prescriptive Analysis。”


比如,他们和IBM的学者合作尝试实现自动化的异常点检测,在今年KDD17发表了文章 “REMIX: Automated Exploration for Interactive Outlier Detection”。但是,基于数据挖掘工作本身的多样性和复杂性,往往需要领域知识和技术知识的有机结合,经常很难完全避免人的参与,所以做到完全自动化在目前看还是不现实的。


挖掘数据的价值:抓小偷,治雾霾甚至反恐


2015年开始,数据挖掘领域出现了一些非常有意思的研究,比如熊辉教授做的利用大数据分析“抓小偷”的研究(参见新智元的报道:KDD 精彩论文:用智能公交一卡通数据抓小偷)。


另外,也有研究员在探索使用数据挖掘进行雾霾的治理和反恐。熊辉教授对新智元说,随着传感网技术的快速发展和实施,越来越密集的传感器可以帮助实时搜集广泛覆盖的环境监测的数据。这些数据对于我们有效判断雾霾的成因,进而帮助合理的雾霾治理提供了决策支持。


在反恐领域,数据挖掘应用前景广阔。首先,近几年数据分析技术和大数据硬件分析平台技术获得突破性进步。比如,云计算大数据分析平台的快速发展和应用,以及深度学习技术在文本,声音,图像,视频数据的分析取得了很大成功。其次,现在可运用于反恐的数据来源多样化和数据覆盖范围也更广阔。例如,广泛分布的摄像头已经一定程度上物联网了,联网的摄像头产生的多源视频数据可以很好的帮助发掘潜在恐怖袭击,或者帮助捕获恐怖分子。




【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位

点击阅读原文可查看职位详情,期待你的加入~




首页 - 新智元 的更多文章: