美国白宫2014年全球“大数据”白皮书(中文版) 下载本文

因素:分析运营与交易数据的能力;洞察客户线上消费行为,给市场带来新的极其复杂的产品;对组织中的机器与设备进行更加深入的了解。

科技公司利用大数据来分析上百万的声音样本,以提供更精确更可靠的语音接口;银行利用大数据技术来提升诈骗侦测能力;医疗提供者借助更精确的数据以改善对患者的治疗。大数据被生产商用来提升机器保修管理与设备监控,同时使物流最优化。零售商同时通过线上与线下的渠道与客户进行各种各样的互动,来为后者提供量身打造的建议与最优的价格。

对消费者来说,大数据为影响人们日常生活的产品与服务的增加提供动力,这让网络安全专家得以保护这个体系并使之安全处理大量的网络与数据应用(从信用卡读卡机到数据应用),同时用它指明异常与威胁之处。它也使将近 29%的美国人,包括一些没有银行账户,或正在申请银行账户的人通过使用一些更广泛的非传统信息的方式建立信用资格并获得信用额度支持的资格,如租金、水电费、移动用户、保险、儿童保险与学费。 这些新技术嵌入在网络中,高精度传感器等监测设备现在可以检测声音、速度、温度,甚至一氧化碳水平,并从停车场、学校与公共道路上提取数据,以此来提高能源效率与公共安全。车辆记录以及行驶范围与使用状况的相关报告将为先进的交通系统及其安全性的提升铺平道路。家电用品现在可以告诉我们什么时候可以在千里之外减弱我们屋里的灯光。政策必须在一定程度上适应改变,随着网络技术的到来,联邦贸易委员会(Federal Trade Commission, FTC)已经开始制定由物联网带来的政策框架的重构问题,续写他们长期以来保护消费者权益的历史。

本章接下来的部分将讨论网络广告与数据服务行业,它们都有过使用处于建立已久的监管框架之下的数据集的历史。

广告支撑的生态系统

从商业网站建立初期以来,网络广告一直是互联网增长的一个重要动力。一项研究估计,广告支持的互联网部门涉及美国数百万的重要职位,其中互动销售领域每年就为美国贡献数十亿美元的经济增长份额, 99 它本身一个能让大数据扎根立足并蓬勃发展的行业。越来越精确的消费者数据包含了:他们在哪?用的是什么设备?他们上百种的兴趣是什么?再加上强大的分析,使得广告商更有效地了解客户需求。昂贵的电视节目空挡和整页的国家级杂志上的广告与精确分割、即时测量的网络广告相比显得粗糙不堪。一项研究表明,广告商愿意为针对性强的网络广告多支付 60%-200%的费用。

消费者获得了稳定的数字生态系统,得到了一系列的免费内容、产品与服务。互联网还让国内与国际的广告商不仅仅与大公司接触, 还会使其关注一些小型家庭企业的羽翼未丰的品牌。因此,消费者可以从更好、更实用的广告中获得更广泛的企业信息。这在市场上最终表现为更有竞争力、更具创新性。

在让这个生态系统发挥作用的过程中,很多不同的人起到了重要作用,包括消费者、直接参与进来的企业与一系列其它的提供分析或保险类服务或导出共享数据的经济实体。在网站的发布者与付钱在该网站的页面上显示自家广告的广告商之间,是一批令人眼花缭乱的公司。广告网络与广告交换有利于广告商和出版商之间的交易;广告内容与广告活动有相关机构、优化者与媒体来策划并加以投放。广告的效果由另一批专业公司来分析与测评的。

总体来说,与消费者直接产生联系的公司从消费者处收集信息,它们被称为“第一方”(“first

parties”),具体包括新闻网站、社交媒体、在线或离线的公司零售商。但如上所述,作为不同业务之间总体关系的一部分,部分公司常以一种汇总或去身份化的形式代表“第一方”处理数据或访问数据,消费者的信息因而也可能被间接收集。这些第三方公司包括很多数字生态系统中的“中间玩家”、办理付款处理的金融交易公司、填写订单的公司等其它公司。“第一方”既可以自己使用数据,也可转售他人以开发广告或用于其它用途。消费者往往无法理解其自身在这个市场中各个级别下被商品化程度。

消费者与透明度

第 21 页 共 33 页

挑战十多年来,网络广告业一直致力于为消费者提供自我监管框架下的选择自由并提高其透明度。在广告生态系统的边缘,消费者可以识别网站的管理者与广告的发布者,后者会将相关隐私政策或其他形式的通告送达给消费者告知他们的信息会被如何使用。在这种自我监管的制度下,当涉及到消费者行为模式与多站点广告投放时, 公司同意遵循一系列原则以便收集消费者随着时间推移而产生的行为活动并从多站点的监测中推测消费者偏好。这些原则包括告知用户自己的数据收集方式;为用户提供退出某些跟踪形式的选项;限制敏感信息的使用,例如:孩子的信息或医疗、金融数据;要求删除相关数据或去身份化。

提高透明度与加强线上隐私的技术发展得很慢,并由于各种原因而没有被消费者广泛运用。例如在广告商与发布商采取的自我监管制度之下,许多线上的基于消费者行为的广告, 都会包含一个标准化的图标来表示信息正在为了广告定点投放而被采集, 同时也提供了供以消费者取消该信息采集的网页链接。根据网络广告业的数据,这个图标已经出现在广告中上十亿次,但只有极小部分的用户使用到它的功能或了解它的意义。大型网络公司运营的广告网站也向用户提供了详细的仪表盘,用户可以在其中看到他们信息的基本使用状况,并且给予他们取消该服务的能力,这同样没有得到用户们的关注。有很多相关理论来解释用户为什么不用这些隐私功能。一些人断言,隐私工具被隐藏起来了或者浏览起来太困难。另一些人争论,接二连三的隐私条款与设置给消费者带来隐私疲劳,他们必须辛苦地亲自做完而不是接受服务。也有可能是因为大部分人在享受可供选择的免费且功能强大的内容、产品与服务的同时,并不会被个性化的广告打扰。

当我们为跨平台信息收集的发展势头与广告投放日益提升的精确度而欢欣鼓舞时,对消费者透明度与有意义的选择的威胁也在日益加深。如今即使采用相对而言简单直接的技术, 使消费者对其浏览器与基于浏览广告的目的而访问的网站间数据流有更大的控制能力,亦即“请勿追踪”(“Do Not Track”)的浏览器设置,也会遇到一些问题,因为防欺诈与网络安全的活动现在都依赖于这些相同的数据流进行追踪、阻止恶意活动。

“请勿追踪”的挑战

“请勿追踪”的隐私设置的背后意义是提供给消费者一种简单易行的控制方式以限制对其进行的多网站行为追踪。一些浏览器在默认设置下就阻止第三方 Cookie 的追踪或使消费者自己能够选择这项功能。一些浏览器也让消费者发送不要跟踪自己的指示服务信号。虽然不跟踪技术相当简单,但在接受发出“请勿追踪”信号的用户访问的网站标准上,相关政策已被证明很难达成一致。一些网站自愿同意默认的访问者并同意“请勿追踪”的要求,但另一些则没有,或者依然进行局部追踪,敷衍着消费者,打击着隐私倡导者。

一个万维网联盟的工作组,包括了技术人员、开发人员、广告业代表与隐私倡导者,三年多来致力于创造一个“请勿追踪”的信号实施标准。近日,该工作组发布了最终候选的“请勿追踪”技术规范,并将向更大的社群征求审核意见。

在此期间,欧盟在 2009 年修订其电子隐私指令(E-Privacy Directive ),要求在使用用户的 cookie 与其它在线追踪设备时必须得到用户的允许,除非它们所请求的服务是绝对必要的,例如在线购物车。各地对于该指令的贯彻并不统一。虽然现在很多欧洲国家获取的 cookie 是得到一次性明确同意的,但这种行为被普遍认为是笨拙的并被批评在某些情况下并未在该指令设想的隐私保护方面给予用户有意义的选择权。

虽然不完美,但这些努力仍然表现了对于开发出一种技术手段以允许个人对商业实体获取并使用其信息进行控制这一领域日益增强的关注度。

数据服务业

除了主要专注于在线广告的公司之外,还有其他一系列企业从消费者、公用记录与其它数据集中提取信息。数据服务部门有时也被称为数据经纪人,它包括一些收集多个信息源数据的企业,它们将数据进行汇总分析,并共享这些信息以及由其派生出的信息。通常情况下,这些公司与它们所收集的信息的用户之间没有直接的关系。相反,他们为政府或其它企业提供服务,包括产品营销、验证个人信息、人肉搜索,或检测欺诈行为。其中一些公司也有“消费者报告机构”(“consumer reporting agencies”)的具体业务线路,例如为信贷申请、保险、就业医疗提供报告。

第 22 页 共 33 页

从监管的角度看,数据业务分为三大类:

根据《公共信用报告法》(“Fair Credit Reporting Act”, FCRA)规范消费者报告,前者通常保存数据并将之收集在一个单独的系统对其进行分析,同时,对在一个分离的系统中出于上述目的的数据行为进行报告,并保证其同时遵循其它数据服务业务的具体规则

风险减轻服务,例如身份验证、欺诈监测与人肉搜索或者查找服务

包括确定潜在消费者、提升广告推送精度与其它相关服务在内的市场推广服务 第二章中所讨论的《公平信用报告法》(“Fair Credit Reporting Act”, FCRA)向消费者提供了肯定行的权利。提供报告以确定信贷资格、保险、就业的消费者报告机构(“Consumer reporting agencies”),需按照《公平信用报告法》或者《平等信用机会法》的相关规定施行。当有诸如接受被拒绝或是信用成本过高等情况发生时,该机构需要基于相关报告与法律需要告知消费者相关信息。消费者有权知道他们的档案与信用评分的状况,了解纠正与删除不正确信息的方式。《公平信用报告法》授权信用报告机构在一定时间后删除负面信息,例如逾期付款与税收滞留的记录将在 7 年后从档案中删除,破产的记录则将在 10 年后被删除。某些类型的信息,如种族、性别与宗教,不得纳入作为确定资信的因素。

这些法定权利不以风险调控或市场推广为目的,事实上,数据服务公司可以提供查阅及改正机制来进行消费者的身份认证。在市场推广方面,一些公司允许消费者选择删除其在市场推广活动中使用的个人信息。

不受监管的数据代理服务

为了协助市场推广,数据经纪人可以提供一个人与某一品牌之间的互动、或是他通过各个渠道寻求帮助的从网页端到社交媒体账户到移动终端的信息数据。数据经纪人通过汇总一个人的购买模式、网站活动、在社交媒体上的活跃方式与他/她和网络广告间的互动,或者直接的客服记录信息,这些信息将借由公共记录信息或者其它通过商业可以取得的信息得到进一步的强化。依据这些信息,数据经纪人能够描摹出一名顾客的概貌,并进一步对其活动记录或约定进行监控,以帮助市场推广人员确定应该何时发送何种信息。

这些身份文件可以是非常详细的,包含最多上千条信息,一些大型企业数据对亿万消费者都有相应的身份文件。他们通过算法分析这些信息,对客户精确分类并辅以描述性的名称来帮助他们的企业客户识别人群,从而进行有针对性的广告投放,一些具体的客户分类如下:“苦苦挣扎着的少数民族二等市民”(“Ethnic

Second-City Strugglers”)、 “一无所有的退休单身汉”(“Retiring on Empty: Singles”)“艰难的开始:年轻的单亲父母”(“Tough Start: Young Single Parents”)、“消耗殆尽的信用:一个城市家庭”(“Credit Crunched: City Families” )、“勉强度日的乡下汉”(“Rural and Barely Making It”),107 这些身份文件既包括个人的事实性信息,还含有通过其他数据“模拟”得出的信息。数据经理人接下来可以出售符合特定标准的消费者“原始名单”(“original lists”),同时他们也可能提供“附加数据”(“data append”)服务,公司可以通过这种方式买到更多特定消费者的数据,进而帮助他们形成更为完善的个人身份信息并据此保持它们的信息优势。

什么是信用报告机构(Credit Reporting Agency)?

从 18 世纪 90 年代开始,信用报告公司(现在的信用报告机构),已经能收集并报告个人的信息,并用于决定信贷资格、保险与工作等领域。在一个典型的场景中,信用报告机构收集个人的信用记录,例如他们是否按时支付账单,他们所持有的银行账户的类别与时间,他们是否已经是贷款收回的对象,他们是否有显著的债务。之后该机构使用统计程序将这些数据进行对比,给予具有相似贷款记录的消费者相应的分数以反映其个人信用:它有多大的可能性按时还贷。这个分数代表着消费者买房买车的能力,抑或是代表着债权人是否可以或是在何种条款下可以向其发放贷款。

虽然这种消费者的精确分析可以带来许多好处,它同时也代表了私营部门有时会在未经当事人允许的情况下收集信息并利用算法来计算个人身份的强大能力。这项大数据技术如果使用不当,可能会对特定的个体产生显著的不利后果。在 2012 年的隐私报告(“Privacy Report”)中,美国联邦贸易委员(Federal Trade

第 23 页 共 33 页

Commission, FTC)建议在《公共信用报告法》尚未覆盖的领域中,数据经纪人应该更加透明化;进一步的,根据数据的敏感程度与使用方式,授予消费者对其相关数据的合理的访问与选择权限。

算法、替代计分和歧视

商业模式与大数据策略,特别是第三方数据服务公司,围绕着消费者数据的收集与使用,提出了如何提高透明度、实施问责制度的重要问题。强大的算法可以在释放企业可获得的信息的价值的同时,帮助普通消费者,但这样也会在自动化决策方面引起编码歧视。在数据访问途径的扩大与强大的分析功能的推动下,现在许多产品可以通过不同于法律规范下的传统信用评级机制对个体进行评分,这些产品试图地数字化地描述包括消费者的购买力、基于他/她在社交网络上的活跃状况所判断出的社交影响力(是他们影响社交圈,还是他们是社交圈的影响者)在内的任何事物。

这些评分也许是为市场目的而产生的,但是它们也可以在个人购买房产、预测职业安全与估计健康程度等方面发挥作用,这就像《公平信用报告法》与《平等信用机会法》监管下的信用指数一样。而什么类型的数据包含在评分指标之内、用什么样的算法对个人行为进行归因等细节都会受企业控制,而不为消费者所知。这意味这些评分无论对于消费者伤害的确认,还是在消费者本人在实际负责的决策链条内对于实际发言权的掌握中,都不会带来有意义的作用。

由于缺乏透明度与可信度,个人几乎没有能力来获取从他们身上直接收集或是经过分析后得到的信息。在网络公司自愿提供个人数据而《公平信用报告法》要求个人数据的规范化的今天,却迟迟没有出现一个全方位的门户网站为消费者与数据公司的沟通牵线搭桥。这样的政策对于那些身份被盗用,出现了一时疏漏的人来说尤为不利,他们的得分会受到影响,这相应地会使其参与经济活动的能力会受到限制。

算法是什么?

简单来说,算法是处理数据的一系列的步骤与指示。算法生成类别并筛选信息,对数据进行操作,寻找数据间的模式与关系,或者帮助进行信息分析。算法的步骤由其作者的知识、动机、侧重点与预期产出决定。一个算法的输出可能无法显现出上述任何因素,也不会在它产生的判断中展现一个错误结果或是任意的选择的概率。人们常说的“学习算法”(“learning algorithms”),它支撑了从搜索引擎的结果排序到数据库的内容过滤等各个方面,它们给每个变量分配不同的权重变量,并最终生成从预测行为到否定机遇等一切结果的决定,这种方式能够在消除偏见的同时保持科学的客观性。

考虑上述原因,民权社会所关心的是,这样的算法决策在数字经济中带来的“底线”问题——在中性算法的幌子下可能产生的对于社会的最弱势阶层的歧视。近日,一些线下零售商就被发现在同一款商品的销售商根据算法推算出的消费者居住地的不同附加了不同的折扣。尽管这些价差可能是由于特定居民区竞争对手的缺少,但事实上,高较之低收入住宅区的人们,收入住宅区的人们通常会享有更高的折扣。

同一商品在不同地区以不同的价格出售有着有完全合法的理由。但是这种细分消费群体的方式对用户的需求进行如此紧密的划分以至于让消费者几乎无法察觉需要更好的服务,尤其当它涉及到差别定价与其它价格歧视的可能性时。因此,对于算法驱动的决策是如何扩大社会经济系统内部物价、服务乃至教育与劳动力配置方面的差距是值得进一步的检验的。

结论

广告支持的互联网通过提供有用的服务、新闻与娱乐节目,不考虑财务成本地为消费者创造了巨大的价值。更精确地广告投放能力对公司来说是具有巨大的价值的,它可以有效地提高观众购买他们的商品与服务的可能性。然而,大数据在私营部门的使用必须保护社会中的弱势群体使其免于不公正的对待。算法在相关资格认定的决策中的广泛使用必须得到谨慎地监管,否则即使没有歧视意图,也有可能产生对于弱势群体的歧视结果。美国联邦贸易委员会在相关产业与社会公众对这个复杂的话题的持续讨论上所给予的帮助是值得褒扬的,并应继续其重点关注数据经纪人这一新兴行业的计划。我们期待着他们将来在这一重要议题方面的精彩表现。为切实增加消费者关于其不规范评分的访问权限,尤其是其中更改并禁止其发布不准确信息的权限,相关的工作还

第 24 页 共 33 页