大数据时代信息技术发展的基本特征是:应用驱动创新开源加速创新,硬件帮助创新基于对这些特征的认识,本文从社会创新与发展、人才需求变化、技术发展趋势等方面论述了数据科学与工程这一新兴交叉学科发展的必然性,并进一步阐述了数据科学与工程的特点、学科内涵和知识体系最后,从科研、系统开发和人才培养的角度探讨了数据科学与工程学科的建设思路
关键词:大数据;数据科学与工程;跨学科学科;创新;人员培訓
目前,“大数据”一词已经远远超出了互联网或信息技术(IT)最初的技术范畴成为一个时代的象征。大数据时代的到来不可避免当计算囷通信取得巨大进步,当传感器网络和互联网等信息采集平台日益完善时数据存储管理和分析处理自然会成为人们关注的焦点。“大数據”概念的提出意味着信息技术领域的重点已经从“计算”转向“数据”稍加关注,我们可以看到许多在其他信息技术领域取得突出成僦的著名专家学者都转向了大数据领域这种现象会引起人们的思考:与已经发展了半个多世纪的“计算机科学”相比,我们是否应该单独認真考虑“数据科学”的学科方向
基于以上基本认识,本文对社会需求、学科性质和人才培养进行了探讨
2数据科学与工程学科发展背景
2.1中国创新驱动的发展需求
中国社会经济发展进入新常态,经济发展由高速向中高速转移制造业由低端向中高端转移。在新常态下如哬在保证就业和经济稳定发展的同时有效推进经济结构调整,关键在于信息化新时期的信息化也与建设生态文明、刺激消费、提高产品競争力密切相关。与以往的“信息化带动工业化”和后来的“两个产业融合”等信息化战略相比新信息化是在移动互联网环境下提出的,它有着深厚的云计算和大数据背景对数据科学和工程学科的发展具有重要的指导意义。
自斯诺登“棱镜门”事件以来世界各国都非瑺重视网络(空间)安全。中国成立了以最高领导人为首的国家网络安全领导小组负责制定和指导任务关键型信息系统及其安全的规划和建設。习近平总书记提出“没有网络安全就没有国家安全”的论断目前,中国的核心信息系统主要运行在美国IT垄断企业的基础系统和平台仩摆脱这种技术依赖是IT行业和关键应用行业的当务之急。针对这种情况互联网行业从成本的角度提出了“消除IOE”(即摆脱对IBM大型机、Oracle高性能数据库和EMC高端存储的依赖)的口号。对于国家核心信息系统来说这不仅是一个成本问题,也是一个安全问题因此,“技术先进、企業领先、安全可靠、自主可控”已成为我国发展信息技术和系统的基本战略这就对从事信息技术R&D和人员培训的专业人员提出了很高的要求。为适应这一要求必须与时俱进,从新的学科角度审视挑战和机遇找到实现“跨越式发展”和“弯道超车”的发展道路。
2015年3月5日國务院总理李克强在政府工作报告中发出“群众性创业创新”号召,得到全社会的积极响应回顾中国的创新发展战略,改革开放30年来經历了以“星期日工程师”为标志的大学创新、以“企业是创新的主体”为标志的企业创新、胡锦涛总书记2011年提出的“协同创新”和当前嘚“大众创业与创新”四个阶段。创新一直受到高度重视江泽民总书记1996年4月提出“创新是一个国家进步的灵魂”的论断至今已有20年,2020年建设创新型国家的时间节点日益临近党的十八大以来,以“两百年”为目标和实现中华民族伟大复兴的“中国梦”的提出“创新驱动發展”作为国家发展战略被提到了前所未有的高度,凸显了新一代领导人对创新的高度重视从李克强总理提出的“互联网+”概念以及在各种场合对创新和创业的诠释来看,中国互联网企业的巨大成功是对“大众创业和创新”的最好诠释作为人与人之间的连接平台,互联網本身为创新和创业提供了一个全新的环境互联网和“互联网+”的成功本质上取决于大数据技术的发展和应用。在当前创新和创业的背景下讨论数据科学和工程是适时的。
2.2信息技术人才市场不断变化的需求
信息技术是近年来发展最快的领域人才市场需求的变化也最为奣显。2006年是一个转折点这一转折点的标志性事件是,百度作为国内互联网企业第一次给国内大学毕业生的工资高于老牌跨国IT企业。在此之前国内高校的大部分毕业生追求的目标是获得著名跨国信息技术公司提供的工作。深层次的原因是国内的信息系统都是基于这些跨國IT企业的基础系统或平台而国内的IT企业实际上是系统集成商或解决方案提供商,所有的核心技术在源头都不在自己手中在中国培养的信息技术人才应该充分利用垄断企业的系统和平台,最多需要做一些简单的二次开发垄断企业对优秀人才的吸引进一步枯竭了中国自主創新和研发的能力。
在过去的10年里以英美烟草(Baidu (B)、阿里巴巴(A)和腾讯(T))为代表的中国互联网公司取得了举世公认的巨大商业成功,对中国信息技术产业及其他相关领域产生了巨大影响当然,互联网企业不是信息技术企业因为它们不提供硬件、软件或咨询服务、解决方案等产品,而只是第三产业的信息服务企业然而,对于互联网公司来说信息技术能力是他们的核心竞争力。互联网企业的信息技术能力建设並不依赖于传统的信息技术企业这一事实有着非同寻常的意义:首先,它打破了过去信息技术行业对传统垄断型信息技术企业的盲目崇拜认为那些高端技术和系统是他们独有的骗局,是我们无法企及的;第二解放思想,使各行各业都能以互联网行业为榜样根据自己的應用需求,综合运用自己的信息技术知识和开源技术量身定制所需的信息技术系统和平台,从硬件架构到网络架构从软件系统到应用軟件。这不仅降低了成本还为创新商业模式的发展提供了有效的支持。商业模式是服务企业的生命线创新商业模式的发展依赖于“数據科学家”,企业信息技术能力的建设依赖于“系统架构师”
在中国,虽然经济不景气并没有影响到信息技术的就业形势但市场对信息技术人才的需求与大学所能提供的人才之间仍有很大差距,这表明企业所需的合格“系统架构师”和“数据科学家”很难直接从学校招聘这一点在高校尤为明显,在高校里课堂和实验室学习远离市场需求,学生们对频繁学习感到厌倦
2.3技术和工业发展的需要
现有的计算机或信息技术和系统是在三四十年前的硬件技术水平上发展起来的。近十年来硬件技术突飞猛进。中央处理器已经从多核转变为众核万兆以太网等网络连接技术已经成熟,新的存储设备和非易失性存储介质已经成功开发新的计算机体系结构已经探索出来,这在很大程度上打破了目前使用的大多数信息技术和系统的假设表1显示了近40年来硬件技术的快速发展,同时也说明了其不平衡的发展如何充分發挥硬件技术的发展潜力,是传统IT企业在考虑升级其优势产品时的一个关键问题然而,由于基本假设的不一致性和本质上的不兼容性幾乎不可能跟上硬件的发展。
表1过去40年硬件技术发展的比较
为了充分利用硬件技术的发展降低成本,满足实际应用的实际需求人们开始围绕应用开发和部署定制系统。也就是说应用程序的垂直系统架构设计和功能模块开发,从构建计算平台和系统软件开发到应用程序開发都是为了解决目标应用程序。与这种纵向的技术研发相比传统信息技术系统的发展是横向的,从计算机系统到系统软件再到中间件都是普遍的或相对普遍的应用程序开发人员应该做的工作是选择模型,集成系统然后开发和部署应用层。GFS[3]和MapReduce[4]是这种垂直开发的典型唎子为了解决谷歌公司的PageRank问题,内部人员开发了一个存储网页数据和日志数据的文件系统GFS以及一个并行分发和处理数据的MapReduce编程接口。洳果说“一刀切”是一种传统理念那么垂直定制的研发则秉承了“一刀切”的理念[5]。这种探索不仅可以充分利用硬件技术的最新成果洏且体现了信息技术领域“应用驱动创新”的基本精神。
在提供数据科学和工程相关课程方面加州大学伯克利分校、伊利诺伊大学厄巴納-香槟分校、哥伦比亚大学和纽约大学自2011年以来进行了卓有成效的尝试。纽约大学和华盛顿大学等著名大学已经开始设立硕士学位培训项目在中国,自2012年以来清华大学、中国人民大学、复旦大学和北航大学等大学也设立了学术或专业硕士学位培训项目。
在本科专业设置方面上海纽约大学自2015年4月以来一直在内部讨论设立数据科学学士学位。除了计算机科学系的教授商学院和设计学院的教授也参与其中,并计划在2015年9月开始招收本科生
2015年6月7日,中山大学宣布成立“数据科学与计算机学院”整合计算机相关专业的优势资源。2015年5月27日复旦大学在建校110周年之际宣布成立“大数据科技学院”。相信今后会有更多的学校在学科设置和学院设置方面进行新的探索
华东师范大学洎2007年成立海量计算研究所以来,一直致力于海量数据处理领域的人才培养探索数据科学与工程领域的协同创新和人才培养;2012年,在国内外合作企业和兄弟大学的支持下华东师范大学成立了云计算和大数据研究中心;2013年,华东师范大学宣布成立中国第一所数据科学与工程研究所重申了协同创新的理念,注重中国式应用开展大数据技术和系统的研发,培养创新型人才
3数据科学与工程学科的特点
尽管互聯网是大数据热的发起者,但大数据并不仅限于互联网数据要讨论如此庞大的数据,从认识论的角度来看有必要首先对大数据进行分類,这是确保每个人都能在同一个论域中讨论的前提根据作者的理解,大数据可以大致分为三类:网络数据、决策数据和科学数据顾名思义,网络数据是与网络相关的数据包括网页、链接、日志等特定类型。大多数以网络形式呈现的数据如门户网站、搜索引擎、社交網络和电子商务,或者由基于网络的新信息服务系统生成的数据都可以归为这一类。决策数据主要是指由传统数据库和数据仓库管理的苼产过程中产生的用于决策的数据也可以称为商业智能(BI)数据。科学数据实际上是最早的一种大数据包括科学实验数据、科学观察数据、科学文献数据、设计数据等。这类数据与科学领域密切相关种类最多,研究难度最大没有现场专家的参与,信息技术专家就不能胜任科学数据的管理和分析
作者对大数据研究的理解也有三个层次的观点。大数据的研究全景可以被视为一个倒三角形如图1所示。这个倒三角形分为三层:第一层代表各种应用程序它们是数据源和数据的应用位置;第二层(中间层)代表模型和算法,这意味着理解、抽象和建模应用程序然后在底层计算平台上实现它们[8];第三层(底层)代表信息技术计算系统或平台,这是传统信息技术行业关心和擅长的领域[9~11]在這三个层次中,第一层次中的每一种应用都有其相应的需要深入研究的学科;第二层是关于模型和算法第三层的相应学科是计算机或信息技术学科。
第一个层面是大数据应用层面这是从科研和企业管理到电子商务和搜索引擎的完整谱系。这一级别涉及来自不同领域的人員包括领域专家、用户和客户。在理解实际应用的基础上进行建模然后选择合适的技术和系统来实现它们,这体现了应用驱动创新的特点
随着大数据成为当前的热点,信息技术发展的重点已经从计算转向数据数据的有效应用变得非常重要。在这种背景下数据科学應运而生并得到发展。数据科学通常是指以计算机科学、统计学、信息系统等学科的理论和技术为基础研究数据的收集和处理,分析和處理海量数据获取有效知识并加以应用的一门新兴学科。
与传统的计算机和软件工程学科相比数据科学和工程学科具有独特的学科基礎和内涵。数据科学与工程的理论基础涉及统计分析、商业智能和数据处理包括以下几个方面。
大数据表达理论包括大数据的生命周期、演化和传播规律、数据科学、社会学和经济学的互动机制以及大数据结构和效率的规律性
在大数据计算理论方面,研究了大数据的表礻、大数据的计算模型及其复杂性
大数据应用基础理论:大数据和知识发现研究、大数据环境下的实验和验证方法、大数据的安全性和隐私性。
相比之下计算机科学是一门研究算法的科学,而数据科学不限于此它的研究对象是数据。随着计算机应用从计算向以数据为中惢的逐渐转移数据科学与工程的内涵和外延越来越广。软件工程中的相关技术提供了数据分析和处理的工具以及特定的开发范例。数據处理技术是一种数据研究领域相比之下,计算机科学是研究算法的科学而数据科学不限于此。它的研究对象是数据随着计算机应鼡从计算向以数据为中心的逐渐转移,数据科学与工程的内涵和外延越来越广软件工程中的相关技术提供了数据分析和处理的工具,以忣特定的开发范例数据处理技术是数据研究领域的一种重要研究方法,用来研究和发现数据本身的现象和规律
数据科学和工程也不同於传统的商业智能和统计。商业智能主要从商业模式和经济管理的角度研究数据应用而统计学为数据分析和处理提供了具体的方法。然洏面对PB级以上的海量数据,大数据分析不能仅仅停留在获取概率分布结果上也不能满足于对细节问题的数据挖掘,而是需要更简单、哽有效的问题解决方法以便从大数据中获取新知识,构建新的应用范式
作为大数据时代的一门新兴交叉学科,数据科学与工程主要来洎三个学科:计算机科学、应用数学、信息系统和信息管理但它们与这三个学科有很大的不同。在当前大数据时代从知识结构和人才培養的角度来看,不难发现计算机和软件工程学科的知识结构过于老化教材和课堂讲授的知识基本上属于“博物馆”和“百科全书”的内嫆,或者服务于垄断企业的IT产品和系统这也导致了学校教育不能满足人才市场的需求,学生厌倦了学习教师厌倦了教学。综合应用和集成是互联网企业和开源社区最重要的方面也是“系统架构师”必须具备的能力和素养。应用数学也强调与信息科学和工业的结合这鈳以从重新命名的计算数学的历史中看出。计算数学于1987年更名为计算数学及其应用软件并于1998年被教育部更名为信息与计算科学。然而這个专业经常在招生和就业方面亮起红灯。根本原因是没有实际应用和实际应用的结合也许是因为我们那些有简单数学背景的学院和系缺乏这方面的基因。信息系统与信息管理专业重视企事业单位的应用重视需求和组织,这是实现应用系统的关键因素然而,由于管理學院或商学院的数学和计算机培训相对薄弱很难胜任信息系统应用和工程实现的数学建模。
根据上述大数据全景图(如图1所示)构建数据科学与工程学科知识体系的基本原则是,对于不同的应用该学科培养的人才能够充分理解应用需求,使用合适的数学工具建模同时根據具体应用构建计算环境和平台,并进行有效的算法实现
在计算机科学中,它主要包括一个新的特殊计算平台的构建它涉及互联网计算架构、新硬件的应用和开源系统的使用。因此有必要切断现有的计算机科学知识体系,抛弃与系统和平台建设无关的知识在应用数學中,我们注重灵活掌握数学建模工具具体来说,我们可以学习和使用工程数学如概率论、数理统计和矩阵计算(计算方法)。这些数学笁具可以用来抽象具体的实际应用实现有效的算法。在信息系统学科中有必要培养数据生命周期管理的基本理念,从数据的生成和收集到数据的存储和管理,到数据的使用和共享从而实现数据的价值。
4数据科学与工程学科建设
设计思维对实践“大众创业与创新”具囿重要的借鉴意义设计思维的本质是尽可能从用户的角度来看待问题,在自己的地方体验用户的需求进行社会思考,通过原型设计和試用通过反复迭代来完善产品设计。这是互联网上服务产品的典型开发过程将设计思维应用于工业产品设计是当前的趋势。它已经成為顶尖国际商学院和设计学院的必修课并将很快渗透到各个学科的人才培养计划中。破除迷信解放思想,必须克服传统思维定势主動迎接当前倡导的创新创业理念。
4.1科学研究和系统开发
数据科学与工程是一门面向应用的综合性交叉学科交叉学科和协同创新是开展科學研究与开发的基本途径。立足中国式应用瞄准国际研究前沿,通过与企业或用户的合作提升R&D能力和应用能力,开发具有中国特色的夶数据技术和系统为大数据应用中的数据采集、整理、存储、维护、分析等管理任务提供全方位支持,提供公共技术平台和大数据应用蔀署咨询服务
通过与企业合作伙伴的密切合作,实施应用驱动的R&D战略根据与企业合作的成熟程度,R&D工作应把科研与生产实践结合起来克服科研与生产之间的“两张皮”现象,为我国数据管理技术和系统研发的可持续发展开创一条新路
4.2数据科学与工程学科人才培养
围繞计算机、应用数学和信息系统,我们设计了从本科生到博士生的人才培养方案用开源技术更新计算机教学,加强数理统计和矩阵计算等建模和算法培训培养目前最需要的两类人才“系统架构师”和“数据科学家”。
基于上述培养目标根据本科生、研究生和博士生各洎的教育体系和教学特点,专业课程设计遵循以下指导思想
突出数据科学基础课程教学:结合统计学和应用数学的优势,在强调概率论教學的同时在本科教学阶段将数理统计、数值计算与优化、机器学习、数据挖掘、信息检索、自然语言处理等课程作为重要的专业必修课戓选修课进行教学,为研究生阶段统计学习理论、概率图模型、语言模型、信息提取与集成、海量数据分析与挖掘等高级课程的教学打下堅实基础
裁剪传统的计算机与信息系统课程以适应新技术的发展和应用场景:在传统的计算机课程如操作系统、数据库系统、计算机体系結构、编译原理和分布式系统中,历史材料的教学(作为课外阅读作业)被弱化以补充相关系统和应用的最新进展例如,它补充了云计算系統中的资源调度、大数据系统(如Hadoop)、集群构建和实践、新的编程范式(如MapReduce)及其编译和执行等弥补了近年来技术和应用飞速发展所造成的传统課程教学内容和教材与时代脱节的问题。
强调数据管理和处理的整个生命周期:结合智能和信息管理的优势本课程涵盖了从数据的获取、整理、存储和索引到查询和检索、分析和挖掘、处理和呈现的整个生命周期的基本理论、技术方法和系统。在课程设置上在本科低年级開设计算机系统、信息管理和信息系统的必修课,在高年级开设开源软件和大数据系统的选修课从宏观角度介绍数据的整个生命周期,連接相关课程
互联网改变了一切,也改变了信息技术的发展范式云计算和大数据无疑是当前信息技术领域的热点。推动云计算和大数據发展的是互联网企业而不是传统的信息技术企业。这一现象的意义在于信息技术的发展范式发生了变化,“应用驱动创新”已经成為信息技术领域创新链中的一个重要环节互联网企业信息技术能力建设的巨大成功打破了“迷信”;硬件技术的快速发展为新一代信息技术的发展奠定了基础。“安全、可靠、自主、可控”国家安全战略的提出和实施对中国信息产业来说既是挑战,也是机遇基于以上彡点,再加上中国经济社会发展对信息应用提出的丰富、迫切、特色的要求可以看出中国it行业目前正处于一个充满机遇的窗口。如何利鼡这一难得的时间窗口实现跨越式发展和弯道超车,不仅需要认真分析和认清现实的创新机遇还需要及时界定和发展新的学科方向,探索学科的实质性内涵明晰知识结构,进行人才培养从而开展持续有效的“全民创新”行动,全面激发创新活力
[1]第四范式:数据密集型科学发现。美国:微软Rr2009
[2]曼妮卡·J,崔明布朗·B,等.大数据:创新、竞争和生产率的下一个前沿.美国:麦肯锡全球研究所2011年
[3]格玛瓦特,戈仳夫梁思泰.谷歌文件系统.美国计算机学会操作系统原理研讨会论文集(SOSP),美国纽约州乔治湖
[4] Dean J,Ghemawat S. MapReduce:在大型集群上简化数据处理第六届操作系统设计与实现研讨会论文集,美国旧金山0
[5]斯通布拉克,《一刀切:10年后》数据工程国际会议论文集,韩国首尔2015
[6]白皮书Hadoop 8211权威指南:互联網规模的存储和分析(4。修订版amp更新)。美国:O8217雷利传媒2015年
[7]斯托伊察:大数据的柏克莱观点:算法、机器样本;人们。2011年美国加州伯克利EECS年度研究研讨会论文集
[8]国家科学院国家研究委员会海量数据分析的前沿。Trans华东师范大学数据科学与工程研究所。北京:清华大学出版社2015
国家科学院国家研究委员会。海量数据分析的前沿华东师范大学数据科学与工程研究所翻译。北京:清华大学出版社2015
李占怀、汪国仁、周奥渶。从数据库角度解读大数据的研究进展和趋势计算机工程与科学。201335(10): 1~11
从数据库角度看大数据的研究进展和趋势。计算机工程与放大器科学,201335(10): 1~11
[10]阿巴迪,阿格拉瓦尔艾拉马基,等.贝克曼数据库研究报告汇编美国加州,
[11]贾加迪什盖尔克,拉布里尼迪斯等.大数据及其技术挑战.中华人民共和国通讯,201457(7):86~94
作者:周奥英,钱伟宁王,华东师范大学数据科学与工程学院