中国工程院院士邬贺铨:大数据共享与开放及保护的挑战
2017年3月28日,2017大数据产业峰会在北京召开。中国工程院院士邬贺铨在会上作主题报告。以下是他的演讲文字实录:
我的报告题目是《大数据共享与开放保护的挑战》,谈三方面问题:大数据的共享与开放、大数据流通与交易、大数据的利用与保护。
大数据的共享与开放
我们知道,现在大数据本身有物理空间的数据、信息空间的数据、智慧空间的数据,这是三元数据。作为网络层面的数据有自媒体数据、富媒体数据、基层网络数据、日志数据,麦肯锡曾经讲过大数据的利用能给美国的保健、欧洲公共管理服务的提供者分别带来3000美元、2500亿欧元和6000亿美元的年度价值,会给经销商带来60%的利润增加,会给制造业带来50%的成本降低。麦肯锡曾经统计过,受教育、运输、消费产品、电力、游戏、保健,如果政府在保证国家安全和公民隐私的情况下开放数据,可以带来年度的全球经济价值32000亿美元到54000亿美元,所以大数据本身带来的产业价值是很大的。
首先说共享。《国务院关于促进大数据发展的行动纲要》里提到推动政府信息系统和公共数据的互联共享,消费信息孤岛,避免重复建设和数据打架,增强政府的公信力,促进社会信用体系建设。大数据共享是指什么?政府部门之间的数据共享、跨行政区域政府间的信息共享、政府与企业间的数据合作和共享、企事业单位之间的数据共享,这是很多方面的。政府层面,需要设立大数据协同管理机构促进政府部门之间的数据共享,必须有很多政府间合作才有很大的数据量,必须要健全制度体系,明确共享什么,明确参与共享的责任和义务,否则共享是很难持久。
另外需要进一步建立基础数据库,一方面是要集中存储被共享的数据,同时进行清晰、校验和整合,提供可以共享的目录,以便用户可以接入和收取这些数据。当然还要规定访问的权限,无关的数据不见得都去访问。
政府基础数据共享与交换平台,包括人口数据、空间地理数据、宏观地理数据、医疗数据、经济数据,进行融合、重组、转换、关联、安全。可以提供部门之间综合的服务,部门企业政府的数据共享。
按照《行动纲要》要求,明年中央就要构建形成统一的互联网数据平台。有一些跨区域的大数据共享合作的例子,比如连云港有个区跨山东和江苏两个省,它彻底打破了行政区划的限制,整合了山东和江苏相邻的几个地方的监控图像数据,做统计分析、轨迹展示、布防布控,实现一键查询、统一风控报警、快速判定行窃轨迹等等,目前通过这个平台抓获了国内违反犯罪人员500多名,破案400余起,取得很好的成效。《行动纲要》提出要加快建立公民法人和其他组织的统一社会信用代码制度,要有企业的信息公示系统。目前已经建成了网络执行查获系统,现在已经有13个国家部门、3000多家银行能够查询11类14项,全国法院可以了解所有被执行人的情况,实现自动化的精准查询。
中央政府之间的共享,监察部对其他部门有监督作用,可以共享其他部门的数据,不见得其他政府部门可以共享监察部的数据,中纪委的数据不太可能跟其他部门全部共享,部分的数据共享可能是不对称的。中央政府跟地方政府间的数据共享也是不对称的,中央政府可以看到所有地方政府的数据,但是不等于地方政府都能看到中央政府的数据。中央政府共享到什么层次?是省级、市级还有县级?现在没有界定。政府数据共享到什么程度,是不是政府与政府部门之间所有数据都是透明的?至少公安部不会跟其他部门的数据透明。
政府跟企业间的数据共享是不对称的,政府提供给企业的数据本身是可以公开的,政府也不能只给某个企业提供信息,而不给另一个企业提供信息。从国家安全出发,政府有权调用企业数据,但除此之外,企业是不是有义务要向政府提供数据,这是有疑问的。在政府调用企业数据的情况下,怎么保证企业的商业秘密不泄露,现在还没有做到规范。《国家大数据行动纲要》提到,2018年要开展政府和社会合作开发大数据的试点,不是简单说政府调用企业的数据,而是政府怎么跟企业合作开发。《关于积极推进互联网+行动计划》提出开展一批社会治理互联网的应用试点,打通政府部门、企事业单位之间的信息壁垒,利用大数据分析手段提升政府的数据治理能力。很多BAT数据政府是不拥有的,如果政府能把BAT数据融合在一起,对于政府能够掌控社会智慧城市、中国的治理都会有很大的作用。
2013年在北爱尔兰召开的会议提出了开放数据,发布数据是为了激励创新,开放14个重点领域。开放数据三项共同行动,激发国家的行动计划,每年都要评估政府开放数据的情况如何。要求发布的数据不是一般的数据,而是高价值的数据,包括预算、民主、环境,另外不仅仅是发布加工过的数据,还要有源数据,往往我们认为政府发布的数据是加工过的,实际上只要不影响国家安全和公民隐私,政府应该开放原始数据。开放的数据要完整的、重要的、及时的,不要对某些公民开放,对某些公民不开放,不能说一定要有授权才能接入,不能开一阵就关掉。共享是政府部门之间、政府和单位之间,开放是对社会,在这点上对开放的要求很严格。
美国政府有个开放网站,有些没有开放,公民提出来要求开放的时候要分析,有些就立即开放,有些经过一段时间开放,因为安全隐私原因没法开放要向政府交代。而且开放数据要屏蔽掉隐私,比如开放人口数据,是安全编码分区域的人口数据,老龄化有多少,上学儿童有多少,男女有多少等等,可以看出这个地方的情况,还有用电量、犯罪记录、中小学评估等等,可以判断这个地方的学区房值不值得卖。还有小区的污染、噪声等等。还要注意到美国政府的开放数据同时开放了数据挖掘的工具,帮助老百姓利用这些数据,在政府开放数据的平台收集了老百姓通过挖掘这些数据得出的可视化的结果,所以非常有利于公民对社会的了解。
再比如英国的开放数据,举个例子,比如一个人的收入是2万英镑,在网上就把鼠标拉到2万英镑,得出一年的税收是8774英镑,税收用到哪里了?用到政府运行,每天的税收,1.69用在国防,每个人都可以很清楚地看到自己的纳税在政府里的应用状况,是阳光透明的。中间的大图是英国总共收到的税收,6948万亿英镑,其中用在各个方面多少钱,就知道政府开支具体的状况。
中国政府开放得怎么样?根据不完全统计,中国政府数据开放平台超过40多个,其中沿海经济发达地区占总数的70%,西部中部还是比较少的,我们开放了教育、医疗、文体、环境,开放的数据存在什么问题?总量偏低、结构化程度低、数据质量不高、民众参与反馈不准。还有很多方面做得不够。以北京的政府开放数据为例,去年北京政府主动公开政府信息超过100万条,跟2015年差不多,其中主动公开的文件不到1万件,主动公开的重点政府领域信息73万条,细看一下北京公开的政府信息里主要是关于食品安全标准和食品生产的占了一半,关于企业信用系统占40%,两项加起来占了90%,剩下的只有10%,10%有政府的三公预算、农民征地、政府定价,实际上可以看到还是很不全面,还有很多可以开放应该开放的数据没有开放。
联合国电子政务发展指数,有信息基础设施、人力资源、在线服务的情况,其中在线服务跟开放数据有关。两年统计一次,2016年开放电子政务发展最好是英国,中国排第63位,比较靠后。数据有个晴雨表,开放数据的准备程度、开放数据的执行力,开放了什么类型,质量怎么样,开放数据的影响力、效果、透明性、对环境的影响、对国家经济的影响。根据三方面来评价,2014年中国排在46位,第一位是英国100分,中国只有28分。2015年中国退后了,排在第55位,不是说中国2015年跟2014年比没有前进,而是别的国家前进更多,相比之下中国得分排名反而下降。
社会上有免费开放数据的例子,有些公司现在在网上已经公开地表示大家只要上网去查,可以看到有些数据是免费的,谁都可以用,有些比较简单,有些是身份证查询、手机查询、IP地址查询,还有股票、基金等等,当然这些对老百姓可能有点用,但是基本上还是一种比较普通的开放数据。数据共享开放现在面临三大挑战,不愿意共享开放,政府部门各自为政,把数据看成自己的权利,很多政府部门以信息不对称作为手段,缺乏激励机制,和技术部门共享数据还得向公众开放数据,得不到商业回报,因此在多数情况下职能部门对于数据开放有点消极被动。现在很多法律法规制度不够具体,不清楚哪些数据可以跨部门共享和向公众开放,数据信息的共享开放有一定风险,搞不好把一些应该保密的数据开放了,搞不好泄露了公民隐私,目前制度不明确,导致政府数据开放存在风险,责任很难界定。现在缺乏公共平台,共享渠道不畅,过去信息传递多数是部门之间通过电子邮件进行,安全性、保密性、可持续性很难保证,没有统一的标准规范,不同职能部门对数据的采集记录标准千差万别,统计口径和时间不一致,没法用。数据开放需要脱敏,缺乏必要的技术和人才支撑,很难按照技术标准来规范。所以实际上我们数据开放面临三大挑战。
大数据的流通与交易
什么叫数据交易?数据有提供方和使用方,很多时候需要通过数据中介方,政府开放的数据在脱敏以后的原始数据,有数据挖掘公司,开放了政府收集的数据,在加工以后把它出售,给数据使用方、行业户,数据生产者、原始的要脱敏的数据给数据挖掘的中介方清洗以后提供给行业用户,通过中介方整合挖掘合并清洗以后,提供给行业用户。数据生产加工者,清洗后的数据通过数据交易所、数据交易所就是倒手,把他清洗加工后的数据转售给行业用户,或者数据生产者直接把原始脱敏的数据交给行业用户。
一般来讲,数据生产者很少直接面向最终用户,大多通过中介渠道实现自身数据的变现,像美国的推特本身不直接销售数据,而是把数据授权给好几个公司,目前美国的数据中介在2012年的最规模已经达到1500亿美元,数据中介本身也是一个很大的产业。美国有好多数据中介公司,这些中介公司通过各种渠道收集和购买数据,自己也有传感器,也收集了一些数据。
中国联通有很多用户数据,包括OSS的上网流量、BSS的用户的详单等等,这些数据不是中国联通的,都是用户的,中国联通可以进行加工利用,通过脱敏,屏蔽掉个人隐私,当然这里面要通过审核,可以接受很多公司的委托,有审核的需求,通过各种分析通过过滤最后可以提供服务,联通是以咨询的方式对外部的公司提供服务,已经上线了身份核查、位置验证行为评估等等,服务于招行、蚂蚁金服、住建部、交通部等等,这是数据收集者直接数据挖掘然后提供服务。
目前在我们国家网上出售的数据有多少呢?有公司已经出售了一些数据。总的来说,现在网上出售的所谓大数据都不够大,不够大也不能说一点没有用,从大数据的角度还是有限,这是公司本身的行为。
大数据交易关键对数据质量的要求。一是准确性。一般会提供原始数据,怎么知道数据是真实完整的,万一不全面、不真实怎么办?买的数据挖掘结果,怎么判断真假,有没有第三方?这是个大问题。二是完整性。数据是不是缺漏,很多时候是数据过滤和脱敏以后的,如果说简单只是为了安全隐私,但是最后数据还得有全面性,不能是片面的。三是一致性。同类数据的表述形式是否一致,出现多次的数据是不是差异,数据是不是符合标准,是不是合规,否则买来的数据也不好用。四是合法性。卖出的数据所有权是谁的?,现在国内进行交易的数据是哪儿来的?有说是政府的数据,可政府数据不能卖钱,政府数据能公开就是免费。五是及时性。给的数据是2017的数据还是2016的数据?是不是有及时性。六是可用性。给的数据能不能容易理解,能不能用技术手段进行分析挖掘。七是安全性。给的数据是不是真正把国家安全和个人隐私的都屏蔽掉了,不然用了以后变成侵犯别人的商业机密和个人隐私了。把数据存在中介那里,能不能保证这个存储是安全的,数据不被窃取。
大数据交易权限。政府的数据如果能够开放那就是免费,不能开放的数据无论多少钱也不能卖,所以,政府的数据不存在提供给中介方交易的问题,当然中介方也许收集政府的数据,通过加工可能有自己的劳动,运营商收集的用户数据原则上所有权是用户,BAT收集的数据原则上所有权是用户,但运营商和BAT拥有对数据脱敏对挖掘分析后的加工结构数据的所有权。没有数据所有权,有数据的公司通过挖掘向政府和企业提供咨询报告,是不是允许在保护隐私和国家安全的情况下提供,没有数据所有权,但是有数据挖掘能力,进行挖掘加工了,是不是可以提供?没有数据但是有数据挖掘能力的公司可以受委托完成数据挖掘。受委托挖掘以后,能不能利用数据为非委托方服务?应该是不允许,但是现在没有明确规定。
没有数据也没有挖掘能力的公司,可以作为中介平台,但是不是可以允许截留数据呢?中介方收集了政府开放的数据据为己有并且出售是不是合法?很多政府公开的数据,有些网站标明价格出售,按道理这是政府的数据,尽管去收集花点时间,但是毕竟还是公开的东西,是不是能出售?在数据源的稳定性、更新频率和数据扩散方面也要商量明确的界限。
怎么衡量数据的价值?精加工的数据可视化的数据怎么定价,怎么衡量数据挖掘的工作量,做了多少工作,一次性买断的数据和可以重复多次出售的数据怎么定价,数据的价值跟时效性什么关系,应该随着时间掉价,是不是需要有对数据评估的第三方机构,现在都是两者来谈。国内的数据流通和交易存在什么问题?我国数据中介机构处于起步阶段。企业没有充分认识到用外部数据可以对自身工作和业务起到巨大的提升作用,所以一般来讲很少利用外部数据。很多数据拥有者对数据里蕴含的东西缺乏足够的洞察,不放心让自己的数据进入流通环节,担心企业隐私机密泄露。
大数据利用和保护
什么数据要保护?和国家安全有关的数据要保护,和企业商业秘密有关的数据要保护,公民隐私的数据要保护。目前欧盟制定了严格的数据保护法案,中国虽然有宏观上的数据保护的要求,但是没有全面的数据保护法规。关于欧盟的数据保护,去年4月份欧洲议会通过了通用数据保护法案,也叫一般数据保护要求。这个法案要在明年5月25日生效,还有一年左右,这个数据保护法案里没有国家安全、企业秘密。涉及欧盟里面的单位对多元数据的处理,这个处理不管在欧盟内部处理还是在欧盟外部处理都要受这个法规管。没有在欧盟里有分支机构,但是向欧盟的消费者提供服务,不管是不是收钱都受这个法规的约束,对欧盟的消费者进行行为监控,欧盟之外如果已经有的法律受欧盟成员国控制的也在这里。所以要注意的是处理者不在欧盟里边不重要,但是欧盟里的消费者都要受这个管理,中国的企业如果把微信支付宝用到了欧洲,那么一样也要受这个管理。什么叫多元数据?多元数据是跟个人隐私、专业、公共生活有关的任何信息,包括姓名、照片、电子邮件地址、IP地址等。
针对个人的信息的收集、记录、组织、建构、存储、修改、咨询、使用、传播和其他的应用,包括排列组合,无论是人工处理还是自动化处理,可以通过这些处理能够针对自然然的工作表现、经济状况、健康状况、个人偏好、兴趣、这里个人隐私的范围是很宽的,包括个人的IP地址都是隐私。个人对自己数据有什么权益?个人具有管理自己个人数据的权益,具有自己的数据被泄露能够获得及时通知的权利以及被遗忘权。对个人数据处理有什么要求?合法公正透明,必须有规有法。目的是有限的,可能为某一个目的来收集处理,只要是为公共利益或者历史研究的目的、统计的目的,目标是有限的。数据是最小性,你获得我的数据不能把我所有的数据都要,可能跟某个目的有关的数据被使用,但是不能把所有数据都拿走。及时性,用完以后要毫不延迟的删掉处理掉。存储的有限性,只有为了公共利益或历史研究,个人数据才能长时间存储,其他目的个人数据不能长时间存储。完整性,要保证收集的数据有技术措施,保证它不能受非法授权、非法处理、遗失丢失损毁。
数据处理什么算合法?并不是说个人数据不能处理,以下的规定可以处理。本人同意可以作为一个或多个特定目的,我特意查了一下所谓本人同意是要书面同意,要写下来同意。我有一个合同,要有个人数据,处理的数据主体在签合同前的请求。处理是为了执行法律,当然要征求。处理是为了保护我自己,为了保护另一个自然人的切身利益,为了保护利益。处理是为了公共利益,处理是为了追求合法的利益的必要,这是允许商业利用,利益的商业部门企业来处理个人数据,首先是为了合法利益,当然不能侵犯提供个人信息的数据的消费者的利益,尤其是儿童。现在手机上的APP几乎都收集个人信息,如果有合法利益的那是允许的,怎么界定合法利益?很多时候不见得是合法利益。有个社会调研,有人提出来是否愿意为了将来的应用资费上的优惠牺牲隐私?中国有38%的人表示可以牺牲隐私,中国更多人认为隐私不重要,反而优惠更重要。
传输存储和开发要有要求,所有的软件包括移动应用的APP在开发阶段和运行数据处理阶段要保护个人数据的隐私,数据控制也含APP,要有充分的技术和措施确保数据和移动应用的完整性,必须应对数据处理面临的风险,处理的时候是不是数据被丢失了,有很多要求。违规怎么办?一般性的违规,处理上限是罚款1千万欧元。如果严重违规的罚款上限是2千万欧元,上一年度营业额的4%,BAT营业额都到几百亿的话,要罚起来不得了。云计算跟这个法规什么关系?管理者负主流责任,如果一个政府在云里存储了数据,就是管理者,很多人认为把数据存在云平台,管理者是云平台,欧盟提出来存进去就应该对数据所有的保密、安全负责,所以云平台有云平台的责任,存数据也有存数据的责任。法规不受限于公司国籍,不受限于云服务的地理位置,如果在中国存了关于欧洲公民的个人数据,这个法规也适用,所以在中国的云平台里,不是说什么数据都存进去有用。目前80%的云服务不会在合同终止的时候立即删除客户的数据,58%的云服务不能提供IT所有权的保证。对2万多个云服务的调查,只有6%的云服务符合这个,如果现在云服务涉及到欧盟的消费者,就危险了。
对中国有什么影响?法规提出非欧盟成员国公司只要满足下边两个条件就受这个法规的影响。向欧盟境内可识别的自然人提供商品和服务,收集和处理他们的信息,你做支付宝肯定收集了他的信息,你做微信肯定收集了他的信息。监控欧盟境内可识别自然人的行动收集他们的信息,做地图服务也收集了信息。在欧盟境内有分析机构的外国公司,分析机构被作为责任主体强制执行法律要求。如果在欧盟境内没有分支机构,一旦境外公司高管进入欧盟境内将直接执行,你小心,如果你犯规的话,你的高管进去就罚你,把你抓起来。所以对中国企业的移动应用安全数据收集处理交易产生重大的影响。首当其冲的是银行、电子商务、互联网、IT企业、软硬件生产商。欧盟这个法规既有保护他的意义,也有很多是限制。
我们国家当然也有一些数据开发应用的文件,工信部出台了《大数据产业发展规划(2016-2020年)》,去年出台的《网络安全法》都提到对个人信息和重要数据在境内存储,保护信息安全和个人隐私,我们的规范都很宏观,不具体,真正违反了怎么样并没有。跟欧盟相比,我们准备得还是比较粗。
数据的价值在于融合与挖掘,政府数据对公众的最大利益在于共享与开放。数据流通与交易有利于促进数据的融合挖掘,数据的使用必须面对保护的责任与义务,尤其是对个人隐私数据的保护。欧盟提出的GDPR将数据保护的严重性提高到前所未有的程度,需要引起我们的高度重视。
数据的共享开放、流通交易和数据保护以及数据安全,对数据技术提出的研究挑战,区块链技术在数据流通交易的保护方面能够起到一定的作用,数据的共享开放流通交流使用保护对法律的制定与执行提出了很高要求,同时需要平衡数据的保护与数据的开发利用。
