基于大数据的安全感知研究
摘 要:随着“互联网+”的到来,网络数据爆发性增长,传统的安全分析手段已经无法分析处理如此大量的数据。随着大数据技术的成熟、应用和推广,网络安全态势感知技术有了新的发展方向大数据技术特有的海量存储、并行计算、高效查询等特点,为大规模网络安全态势感知的关键技术创造了突破的机遇。本文将对大规模网络环境下的安全态势感知、大数据技术在安全感知方面的促进做一些探讨。
关键词:大数据 网络安全 态势感知 并行计算
Network Security Situation Awareness Based on Big Data
Li Yingzhuang Wang Yao
1
2
Zhou Zhengcheng Zou Xueqin
22
(China Mobile Group Hainan Co., Ltd.,Hainan,570125)
Abstract: With the \analysis, the traditional method has been unable to deal with such a large amount of data analysis. Along with the promotion and application of big data technology, mature, situational awareness of network security technology has the characteristics of a new direction for the development of mass storage, unique big data technology of parallel computing, efficient query, creating a breakthrough opportunity is the key technology of large-scale network security situation awareness. In this paper, we will discuss the security situation awareness and the promotion of large data technology in large scale network environment.
Keywords: Big Data,Network Security,Situation Awareness, Parallel computing
1. 引言
随着“互联网+”、智能制造等新兴业态的快速发展,互联网快速渗透到工业各领域各环节,客观上导致工业行业原有相对封闭的使用环境被逐渐打破,传统网络与信息安全威胁加速向各类网络、系统、设备渗透,病毒、木马日益猖獗。提出新的挑战,而且我国目前信息系统安全产业和信息安全法律法规和标准不完善,导致国内信息安全保障工作滞后于信息技术发展。
面对复杂严峻的网络与信息安全形势,2015年1月,公安部颁布了《关于加快推进网络与信息安全通报机制建设的通知》(公信安[2015]21号)文件。《关于加快推进网络与信息安全通报机制建设的通知》要求建立省市两级网络与信息安全信息通报机制,积极推动专门机构建设,建立安全态势感知监测通报手段和信息通报预警及应急处置体系。明确要求建设网络与信息安全态势感知监测通报平台。实现对重要网站和网上重要信息系统的安全监测、网上计算机病毒木马传播
监测、通报预警、应急处置、态势分析、安全事件(事故)管理、督促整改等功能,为开展相关工作提供技术保障。
2016年4月19日,习总书记在讲话中指出:我们要保持清醒头脑,各方面齐抓共管,切实维护网络安全。其中很重要的一点就是建立“全天候全方位感知网络安全态势。知己知彼,才能百战不殆。没有意识到风险是最大的风险。”
随着信息化的发展,网络安全案件向着高频率,高危害,难追溯的方向发展。急需一种安全监测手段,提供网络安全监测,攻击溯源能力,能够发现多种安全事件线索,发现攻击源头,大大增强了网络安全防御能力和威慑能力。
2. 安全态势感知研究
2.1.1 大数据体系建设
大数据在电商、互联网等行业的广泛应用,各行各业已经开始认识到大数据对于行业未来发展的意义。对于信息安全领域不断涌现的高级攻击手段,以及云计算技术在一些企业、政府部门中的应用,传统的安全设备已无法容纳大量的数据信息来进行安全分析和防御。因此将大数据技术应用在信息安全领域,建立信息安全领域的大数据存储分析平台非常必要。
系统支持针对海量历史网络通信数据进行综合分析,挖掘具有强潜伏性和持续时间长等特征的高级、复杂的窃密行为及网络攻击活动:通过各种数据挖掘分析技术,进行海量历史数据的数据挖掘分析,获得更多更有效的结论和报告。辅助应用系统快速定位安全事件和问题。
2.1.2 关键技术方案
构建面向信息安全领域的大数据平台,自动、智能、快速的对复杂来源的海量数据进行采集,并针对大数据分布式计算特性和算法特性对数据进行统一预处理,形成统一的分布式存储管理系统。利用分布式计算架构对数据进行快速计算和挖掘分析,以采集的大数据为基础,构建相应的业务模型和可视化分析,从而发现和揭示隐含的要素和关联。
图 2.1 安全大数据分析
1、数据源采集
信息安全领域的数据源根据类型的不同,包括结构化数据,非结构化数据和半结构化数据,数据采集方式主要通过syslog和flow技术进行采集,对于大量多源异构数据源,采用前置探针,对数据进行集中收集、规范化等工作,将数据整合后统一发送到大数据应用系统,应用系统将根据安全事件之间的相关性,进行关联分析,得到更为准确的监测信息,发现攻击源。
2、大数据预处理
原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结构的偏差。因此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,从而改进数据的质量,提高数据挖掘过程的效率、精度和性能。大数据预处理利用数据切片,数据分类,数据聚合,数据索引标记等技术对原始数据进行层级化的聚合、重组、清洗、提取、转换、管理、切分等预处理操作,统一标准接口,统一数据标准,并通过分布式存储管理技术,在满足一致性要求的基础上,实现安全、可靠、快速、有效的对多类型、多格式的数据统一存储管理。
3、大数据分布式计算
大数据分布式计算通过两个或多个计算机互相共享信息,将需要进行大量计算的数据分割成小块,由多台计算机分别计算,再对运算结果进行统一合并。采
用分布式任务调度机制,动态灵活的将计算资源进行分配和调度,从而达到资源利用最大化,计算节点不会出现闲置和过载的情况,采用分布式实时计算框架和分布式离线计算框架相结合的分布式计算框架和模块化设计,构建一个支持多种分布式计算模型的统一动态调度、管理和计算的大数据分布式计算平台,有效的支撑大数据挖掘分析。
4、大数据挖掘分析
通过上述数据采集、数据预处理、数据分布式计算等过程,大数据已纳入分布式存储管理中,这些数据信息已可以用于查询、统计、分析,得到大量对业务有用的信息,然而,隐藏和淹没在这些大数据之中更重要的信息,如数据整体特征描述、关联分析、精细化分类、模式识别等,是无法用传统查询统计方法来获取的。为了得到这些有用的信息,需要采用数据挖掘分析技术,自动智能的对大数据分析、探索、挖掘,探寻数据的模式及特征,寻找数据被的信息变化,从而最终使用蕴藏在数据中的信息和知识。
数学模型库是针对所有算法的特征,构建一个通用库,实现了大数据格式的数据结构定义,对算法参数,数学模型库,模型评估体系和挖掘分析的结果等进行统一管理,提供了数据挖掘分析的入口,根据输入的算法参数,自动调用挖掘分析所用的算法及其相应的模型等。
数据挖掘算法工具库针对大数据分布式存储管理,分布式计算的特性,统一匹配各种数据挖掘算法,根据具体业务需求,工具库可配置相应的算法进行挖掘,具备灵活的动态扩展和分布式任务调度机制。
数据挖掘接口封装是屏蔽底层算法的细节差异,统一向上层提供数据挖掘的处理接口,接口封装在保证了系统功能独立的同时增加了系统的可扩展性和灵活性,当与之互联的外围系统发生变化时,只需修改相应接口程序。
5、信息安全数据应用
随着大数据技术的不断创新和广泛应用,信息安全领域越来越迫切需要依托大数据处理技术来实现网络攻击的分析,面向信息安全领域的大数据分析平台在大数据采集、预处理、分布式计算和挖掘分析的基础上,需面向信息系统提供信息安全保证服务。
2.1.3 安全分析模型
安全态势感知使用大量安全分析模型,如 事件理解引擎设计