美国白宫2014年全球“大数据”白皮书(中文版) 下载本文

美国白宫:2014年全球“大数据”白皮书

目录

1、大数据与个人 什么是大数据? 大数据有什么不同? 证明我们的价值

2、奥巴马政府在数据开放与隐私保护问题上的发展路径 奥巴马政府关于公开数据的举措 美国隐私法案和国际隐私法框架 3、公共部门的数据管理 大数据与医疗保健服务

对学习的研究:大数据与教育 大数据在国土安全部

在执法过程中贯彻隐私价值观 大数据技术对隐私法的启示 4、私营部门的数据管理

大数据对消费者与企业的益处 广告支撑的生态系统 数据服务业

5、为大数据构建的政策框架 大数据与公民 大数据与顾客 大数据与歧视 大数据与隐私

预测大数据变革的下一篇章 6、结论与建议

保护个人隐私的价值

数字时代负责任的教育创新 大数据与歧视 执法与安全保护 数据公共资源化

概述:

“即使大数据技术重塑了我们周围的世界,今天的发言也将帮助我们持续贯彻自身的价值观念。”“这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的 90 天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(White House Office of Science and Technology Policy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。”“在 2014 年,美国国税局通过一个名为‘Get transcript’的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表变得更加便捷。”

第 1 页 共 33 页

“尽管医学技术不断变化,但健康数据仍然是我们生活中非常私密的部分。在大数据使得较之以往任何时候都更为强大的发现成为可能的同时,重新审视相关信息被所有医疗保健机构共享后的隐私保密方式也显得相当重要。医疗保健行业的领导者已经呼吁构建一个更为广泛的信用框架,使得不同来源、不同隐私保密程度的健康数据得以汇聚。这一框架需要附加《健康保险便利和责任法案》与《反基因歧视法》(“Genetic Information Non-Discrimination Act”, GINDA)中的隐私保护条款,并同时设计标准化数据结构以提高 其跨平台适应性。 ”

“大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。

给总统的一封信 亲爱的总统先生:

我们正生活在社会、经济与技术革命之中。我们如何通信、交际、度过闲暇时光以及开展业务已经转移到了互联网上。互联网又渗透进入我们的手机,进入蔓延在我们家园和城市中的设备中,进入推动工业经济的工厂中。其导致的数据爆炸和挖掘正改变着我们的世界。

今年一月,你要求我们进行为期 90 天的调查,检验大数据将如何改变我们生活和工作的方式,改变政府、公民、企业家和消费者之间的关系。这次调查的重点在于公共和私营部门如何在将风险最小化的同时,将大数据的价值最大化。 它也为大数据确定了发展我们的经济,改善健康和教育以及使我们国家更加安全和节能的机会。虽然大数据毫无疑问地加大了政府权力累积未经核实的事实的可能性, 但它也提供了增强公众责任、 隐私和权利的方案。如果正确实施, 大数据将成为历史前进的推动力,帮助我们国家保持长期以来成为我国特点的公民和经济活力。

大数据技术将变革生活中的每一个领域。 它们使之成为可能的知识发现提出了我们为隐私保护构架的框架如何在大数据生态系统中应用的重大问题。大数据也引发了其他问题。 这个报告的一个重大发现在于,大数据分析有一定可能使长久存在的公民权利保护黯然失色,特别在于个人信息如何利用于住房、信贷、就业、健康、教育及市场领域上。美国人与数据的关系将扩展他们的机会和潜力,而不是缩减。

我们正在建设我们将继承的未来。 美国比世界上的任何其他国家更适合确保数据革命能够持续地为个人发展和社会良好效力。我们欣然提交本报告,建议我们如何在保护诸如隐私、公正、自决等基本价值的同时拥抱大数据技术。我们致力于这一倡议和改进。我们今天在这发起的对话将帮助我们在大数据重塑我们周围世界的同时,坚持我们自身的价值。

1、大数据与个人 什么是大数据?

自从古代有过第一次计数和农作物产量记录以来, 数据收集和分析便成为社会功能改进的根本手段。 17、 18 世纪的微积分、概率论和统计学所提供的基础性工作,为科学家提供了一系列新工具,用来准确预测星辰运动、确定公众犯罪率、结婚率和自杀率。这些工具常常带来惊人的进步。在 19 世纪,约翰·斯诺(John Snow)博士运用近代早期的数据科学绘制了伦敦霍乱爆发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的,斯诺通过调查被污染的公共水井进而确定了“霍乱”的元凶,并同时奠定了疾病细菌理论的基础。 从数据中撷取洞见以提振经济行为,这也是美国工业的惯常做法。弗雷德里克·温斯洛·泰勒(Frederick Winslow Taylor)在宾夕法尼亚州的米德瓦尔钢铁厂采用秒表和笔记板来分析生产力,这大大增加了车间产量,也铸就了他的信念,即数据科学可以为生活中每一个方面都带来革命性影响。

1911 年,泰勒撰写了《科学管理原理》,以回应西奥多·罗斯福(Theodore Roosevelt)总统有关提升“国家效能”的倡议:

第 2 页 共 33 页

从我们单个人的行动到大型企业的工作,科学管理的基本原理可以应用到一切类型的人类行为中??无论何时,只要正确运用这些原理,必定会产生真正令人惊讶的成果。

今天,数据比以往任何时候都更加深入地与我们的生活交织在一起。我们期待着用数据解决各种问题、改善福利,以及推动经济繁荣。数据的搜集、存储与分析技术不断提升,这种提升看上去正处于一种无限的向上轨迹之中。它们的加速是因为处理器能力的增强、计算与存储成本的降低,以及在各类设备中嵌入传感器的技术的增长。 2011 年,新生成的和复制的信息量估计超过了 1.8 ZB(泽字节);而在 2013 年,这一数字估计可达 4 ZB。

什么是泽字节(ZB 或 Zettabyte)

一泽字节等于 21 字节,或相应的信息单元。想想看,一个字节等于文本中的一个字符。 1ZB 相当于存储 323 兆份列夫·托尔斯泰所著的 1250 页的《战争与和平》所需的容量。6或者想象一下,假定每一个美国人每秒钟拍一张照片并连续拍 1 个月,所有这些照片存储进来容量就相当于 1ZB。

世界上每天大约有 5 亿张照片上传或分享,另外每分钟还有超过 200 小时的视频上传、分享。但是,即使是人们自己产生的信息,即从语音通话、电子邮件、文本到上传的图片、视频、音乐等全方位交流产生的信息,与每天产生的与他们相关的电子记录等数字化信息相比,在数量上都是相形见拙的。

这些趋势还将持续下去。我们只是处在所谓的“物联网”(“Internet of Things”)的相当初级的阶段。在物联网中,我们的各种应用设备、运输工具以及持续增长的“可穿戴”技术产品将可以彼此交换信息。技术的进步将促成创建、捕捉、管理与存储信息的成本降至2005 年的六分之一。自 2005 年以来,人们在硬件、软件、人才与服务方面的商业投资增长了近 50%,达到 4 万亿美元。

“物联网”

“物联网”这个术语用来描述具有可交换信息能力的设备网络。这些设备通常嵌入了传感器,并通过有线或无线网络连接后进行彼此间的信息交换。它们可能包括你的温控器、汽车,甚至是你咽下去的“小药片”,医生可以用它来监控你的肠胃以及消化道的健康状况。这些连接的设备通过互联网传输、编制和分析数据。 关于“大数据”有许多种定义,这种差别取决于你是一位计算机科学家,还是一位金融分析师,抑或是一位为风险投资人推销一个概念的企业家。多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,“现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型。”7更确切地说,大数据集是“庞大的、多样化的、复杂的、纵深的和/或分布式的,它由各类仪器设备、传感器、网上交易、电子邮件、视频、点击流,以及现在与未来所有可以利用的其他数字化信号源产生” 。就大数据而言,真正重要的是它能做什么。先且不论我们如何把大数据界定为一种技术现象,大数据分析那多元而广阔的潜在用途将面临一些关键性的问题,即我们的法律、伦理与社会规范在大数据时代是不是有足够的能力保护个人隐私和其它价值。前所未有的计算能力与持续的改进能力为我们的生活带来了可能是先前从未预料到的发现、创新与进步。但是,这些能力对于普通消费者来说,多数都是既不可见,也无法得到的,因此, 它们在持有大数据的一方与有意无意地提供着数据的一方之间,形成了一种非对称的力量。

部分挑战也在于如何理解大数据发挥作用的许多不同的应用场景。大数据可以被看成一种资产、一种公共资源,或者一种个体身份的表达; 它的应用或许可以驱动未来的美国经济,也可以是我们所珍视的自由的一种威胁。大数据可能是所有这些事情。就这为期 3 个月的研究而言,评估组并不旨在对大数据的作用做出全面的解答。大数据技术和支撑它的产业都在不断地创新和变化中。相反,我们的研究集中在探讨个人与数据的搜集、利用方之间那些至关重要的问题。

这份评估报告的范围

今年 1 月 17 日, 奥巴马总统在司法部就改革美国信号情报工作的演讲中,责成他的顾问约翰·波德斯塔(John Podesta)就大数据技术正在或将要对经济、社会与政府行为的范围内发生的影响做出全面评价。为此,波德斯塔召集了商务部部长佩尼·普利茨克(Penny Pritzker)、能源部部长欧内斯特?莫尼兹(Ernest Moniz)、

第 3 页 共 33 页

总统科学顾问约翰·霍尔德伦(John Holdren)、总统经济学顾问杰弗里·泽恩斯(Jeffrey Zients),以及其他高级政府官员。总统科学和技术顾问委员会(President’s Council of Advisors for Science & Technology, PCAST)组织了一项平行报告,以评估基础技术。他们的成果支持了本报告中的许多技术性判断。

这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的 90天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(White House Office of Science andTechnology Policy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。白宫科学与技术政策办公室也发放了“咨询请求”,就大数据和个人隐私问题寻求公众意见,并得到了超过 70 起回复。此外,白宫网站平台就公众对于大数据的各类使用及不同类型的大数据技术所持的态度,做了一项粗略的调查。在本报告附录中,可以看到工作组各项工作的列表。

大数据有什么不同?

这章首先界定一下大数据真正新颖和不同的是什么,它得益于总统科学和技术顾问委员会(PCAST)的工作。PCAST 写作了一份平行而独立的报告《大数据与个人隐私:一种技术的视角》。

“3V”: 数量(Volume)、类别(Variety)、速度(Velocity)

为了本项研究,评估小组聚焦的是那些数量巨大、类别繁多且高速运行的数据,而传统的数据采集与分析模式已经难以应对了。我们将其特征通俗地称为“3V”。数据采集、存储与处理成本的下降,连同像传感器、相机、地理位置及其它观测技术提供的新的数据来源,意味着我们生活在一个数据采集几乎无处不在的世界中。采集与处理的数据量是空前的。从基于网络的应用、可穿戴技术与先进传感器到监测生命体征、能源使用状况与慢跑者跑步速度的监测仪,由此带来的数据爆炸将推进人们对于高性能计算技术的需求,并推动针对最复杂数据的管理能力的提升。

不仅是数据的数量正在快速增长,它的格式也越发多样,来源也越发广泛。就像总统科学和技术顾问委员会的报告中所说的,有些数据是“天生数字化的” (“born digital”),意思是说它就是特别创造出来用于计算机和数据处理系统的。 这些例子存在于电子邮件、网页浏览,或 GPS 定位之中。其它数据是“天生模拟的” (“born analog”),这是说它从物理世界中发散出来,但可以不断被转化成数字格式。模拟数据的例子包括手机、相机或摄像设备录制的语音或可视信息,或者还有通过可穿戴设备监测到的身体活动数据,如心率或排汗量。“数据融合”(“data fusion”)能够将分散的数据源整合在一起,随着这种能力的提升,大数据可以带来一些远见卓识。

大数据来源是什么?

数据的来源与格式,连同其类别与复杂程度,都处于持续增长之中。 部分数据来源如下: 公众网络;社交媒体; 移动应用程序;联邦、州和地方记录与数据库;聚集商业交易与公共记录中的个人数据而形成的商业数据库;地理空间数据;各类调查;通过扫描并借助光学字符识别转化而成电子形式的传统离线文献。更多具有上网功能的设备与传感器的出现扩大了从物理实体,包括通过传感器和射频识别(radio-frequency

identification, RFID)芯片采集数据的能力。而个人定位数据则来自 GPS 芯片、移动设备蜂窝信号基站的三角测量、无线网络映射,以及个人支付行为。

不仅如此,数据采集与分析的执行速度越来越接近即时时间,这意味对于一个人就其周边环境或生活所做的决定产生即时的影响而言,大数据分析有着越来越大的潜力。高速数据的例子包括记录使用者在线与网页互动活动的点击流数据,即时追踪定位的移动设备获得的 GPS 数据,以及得到广泛分享的社交媒体数据。客户与公司希望通过分析这种数据使其即刻获益的要求越来越高。事实上,如果手机定位应用不能即时准确地确认手机位置,它根本就不会有什么用处,并且,在确保我们的汽车安全运行的计算机系统中,实时操作就至为关键了。

新机会、新挑战

第 4 页 共 33 页