库等。这些应用需要的存储方案包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求等。
在互联网应用时代,结构化数据的标记成为了各互联网平台维护的重要工作。一个页面的内容,例如人物、事件、产品或评论不仅要给用户看,还要让搜索引擎可识别,而目前要让其知会特定内容含义,需要使用规定的标签、属性名以及特定用法等。也就是说,结构化数据标记就是其中一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见目标商品的重要信息。例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等,都可以在搜索结果摘要直接看到。
3.3.2 非结构化大数据应用
相较于传统的结构化大数据应用,非结构化大数据应用更加明显地受驱动于个人娱乐、个人生活应用的发展,而时至今日,随着多元化的互联网应用的普及,上述典型的非结构化大数据也已经在金融、电信、制造等企业级市场逐渐开花。企业对视频、图像、语音等非结构化数据的处理也从过去的美化、编辑处理逐渐向图像鉴别、语义语境分析等技术领域拓展。
与结构化大数据相比,非结构化数据具有以下特点:(1)原始数据很大,标准数据很少;(2)低质量的数据很大,可用的数据其实并不多;(3)收费数据很大,免费数据很少;(4)信息含量很大,可用信息很少。(5)积累速度很快,但由于计算机的计算量有限,能处理的很少等。
具体而言,在图像领域,由于当前图片内容的价值已经超越图片本身,因此物体识别、场景识别已经成为非常热门的技术,而诸如服饰品牌的同款识别和风景识别等新兴应用领域也已层出不穷。
而在语音识别方面,有两大主流发展方向,一个是纯机械指令,基于产品定位而设计命令词组,作为高效的辅助工具存在;一个是智能化理解语境,与人进行互动交流,并承担部分处理工作。后者代表语音识别未来的发展方向,但实际应用中
33
两者并不冲突。
目前,结合人工智能和深度学习技术,通过神经网络的训练学习,非结构化数据的应用将变得更“聪明”,在实际交互场景中,除了实现快速精准的动作识别以外,还能对下一句的语境情绪进行预测,模拟真人对话。图像识别过去大多是建库识别,深度学习释放了图像识别的识别领域,把识别对象的年龄变化记忆下来,实现动态、多角度、不同光照变化下的识别。
从更高层面的意义来讲,非结构化数据的收集和分析是一个从被动到主动的过程,基于用户画像的主动营销已成为非结构化数据快速发展的主要推动力之一。语音识别从接受指令变成了对指令使用频率的分析,进而形成用户的习惯图表。图像识别亦然,针对用户的识别频率,分析出用户的兴趣画像,这将给予广告主带来精准广告推送的商机。
3.4 大数据交易
3.4.1 大数据交易市场环境
(1)数据拥有者存在价值认知的鸿沟和避险心理
数据交易的目的是促进数据的流动和价值体现,但是不同数据拥有者对数据资产的价值和风险认知存在较大差异。因为对数据中蕴含的信息缺乏足够的洞察,很多数据拥有者不放心让自身的数据进入流通环节,担心用户隐私或企业机密泄露。
(2)企业与个人普遍对引入外部数据认知不足
数据拥有者无法意识到自身数据的资产属性,缺乏足够的动力将自己的数据公开。比如,搜索引擎出于服务的目的,记录了用户搜索所输入的关键字,而这些数据可以被卫生部门用来进行疾病的监控与防治。数据能够对数据生产业务相关方之外的第三方产生影响。从另一方面而言,政府、企业或组织都还未充分认识到引入外部数据可以对自身工作或业务起到巨大的提升作用。
(3)企业数据支撑业务的优先级高于数据交易
大多数数据源企业仍然较为关注自己的小生态圈,尤其是一些大型企业往往不愿意把自己的数据资源向自己业务圈外的市场提供,从而形成了多个规模和性质各异的数据封闭生态。尤其在我国,全社会普遍还未形成数据分析的传统。在大数据
34
氛围的激发下,对于拥有海量数据资源的企业或机构而言,撬动自身数据资源支撑业务的优先级必然会高过通过数据交易获得收益。
(4)化解数据隐私问题需多管齐下
由于政府、企事业单位的特殊性,其所涉及的数据敏感性较高,不同部门和企业所涉及的数据类型和数据敏感性程度也不同,在缺少明确法律法规的前提下,其推进大数据交易的进程往往比较谨慎,而个人隐私问题也是大数据交易的一个重要问题,个人隐私的泄露会造成非常严重的道德问题,也会严重阻碍大数据交易未来的发展。目前对于大数据交易会实现进行数据脱敏处理。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。此外,目前大数据交易所还需要对数据买方进行一些限制,例如贵阳大数据交易所规定在2015年暂时不允许任何个人购买交易所的数据。同时在监管不健全的情况下,外资数据买方购买数据之前需要进行资格审查。同时,数据售出之后,还需要一定的技术来确定数据是否会被滥用,需要制定相应的数据水印,便于追责。
(5)大数据交易亟待形成统一的技术标准
大数据交易目前缺少相应的法律规范,在大数据交易过程中所涉及到的数据采集、数据清洗、数据标准、交易标准、数据资产价值评估、数据资产风险评估等方面也仍处于缺失状态,这会导致数据交易将带来一定的安全风险与道德风险,技术标准的缺失会阻碍大数据交易的开展,催生一定的黑市交易,而未来的大数据交易活动也一定是框架内的交易,规则内的大数据交易才是未来可持续的发展方向。
(6)合理的价格制定方式仍需不断探索
市场刚刚起步,目前对于大数据交易的价格制定业内还没有形成统一规则,主要采用卖方定价方式,即交易所将针对每一个数据品种设计自动的计价公式,数据买方可以通过交易系统查询每一类数据的实时价格。当数据买方应约价等于或高于卖方挂牌价时,按照交易所自动撮合成交,成交价为买方应约价格;对于不能自动成交的应约,卖方可选择能接受的应约与其成交,成交价为卖方应约价;因为数据买方不一定需要全部的数据样本,这个时候,系统将对数据设定拆分原则,系统自动报价,而后自动撮合成功成交。但是,大数据交易的主要目的是促进数据的流通,
35
创造更大的价值,而卖方定价的策略必然使得数据流向金融等购买能力强的行业,容易形成数据垄断,不利于数据在不同行业的流通。因此,价格制定仍需要厂商不断试错、摸索。
3.4.2 大数据交易产业链
中国大数据交易市场的产业链相对比较简单,产业链的主体主要是数据的需求方,数据的供给方,以及大数据交易平台。数据的供给方与需求方不是完全固定的,数据的供应方有时也是数据的需求方,而数据的供给以及需求主要为政府、企业与个人,而在数据交易之前,会涉及到数据采集、数据清洗、数据脱敏、数据建模,最终形成数据商品。在这个过程中,会有个人、数据提供方、专业数据处理公司的介入,数据交易平台也会提供相应的服务。在数据交易的过程中,会有数据交易平台的介入,数据商品的交易在数据交易平台实现,如数据存储在大数据交易机构手中,则有可能涉及到云存储厂商,数据需求方在得到数据商品之后,有可能需要专业的数据分析公司来帮助其设计产品或支撑其业务。由于数据需求方所在的属性不同,因此数据交易能够影响到市场中全部的行业发展,大数据交易市场的价值在于打破信息孤岛,实现数据流通,通过不同行业之间的数据碰撞带来更加丰富的价值。
3.4.3 大数据交易人力资源需求
表3-1 大数据交易产业主要人才需求 方向 数据采集与处理 具体岗位 具体职责 通过多种途径采集数据,清洗数据,将非结构爬虫工程师、自然语言处化的数据进行结构化处理,形成完整的数据集理、语音识别、图像处理等 合。 根据客户的需求,帮助政府与企业在云上搭建云计算架构师、大数据架构大数据平台,通过机器学习的方式提升数据的工程师、机器学习工程师等 识别能力。 基于海量的数据源,根据客户的需要,制作相数据分析师、大数据分析应的数据商品,深度挖掘数据背后价值,拓展师、数据挖掘工程师等 数据使用范围。 智慧城市解决方案专家、大为政府以及国家各部委提供智慧城市以及大数据解决方案专家等 数据平台的顶层设计,提供整体解决方案。 银行、金融、交通、医疗等针对大数据高频交易的垂直行业提供相应的垂直行业人才等 专业支持,从数据层面提供相应的咨询服务。 底层技术架构 数据分析 解决方案 垂直行业 大数据交易产业主要人才需求主要集中在数据采集与处理、底层技术架构、数
36