增值电信业务经营许可证(SP许可证)申请-可行性分析报告范文模版[方案之家]1 下载本文

欣晨制作

类信息,为了更加清楚的展示各类舆情信息,如涉警、维稳等在互联网上的分布情况,准确的分析舆情的传播范围,清晰的展现舆情信息,对互联网舆情信息进行分类就显得极为重要。

自动分类技术根据文献内容进行类别划分的功能,可以用于地域分类、涉警分类、维稳分类、治安分类等诸多应用。可以自动地对文档进行分类,赋予文档一个预先定义的类别主题词,便于文档的组织,不需人工干预。

3.2.4.6 数据推送

互联网信息的传播速度快、范围广的特点,为正确引导互联网的发展,必须第一时间内将公安机关关心的涉警、涉稳、治安等舆情信息检测与预警出来,系统采用数据自动推送技术在舆情事件第一爆发点时以短信或邮件形式通知工作人员,以便进行正确引导。

数据推送分析是综合研判中的一部分,主要综合考虑两个方面: ? 数据来源:根据数据来源的不同,各个类的相关度会根据不同阀值做调

整。

? 相关度: 地域与其它类之间的相互影响,最后得出一篇文档的相关度。

根据地域相关度的大小,对其它类的相关度根据不同阀值重新计算。 总体上通过这样的逻辑就很容易实现两种效果,一是分类,具体分什么类、类的词典等都可以通过配置实现,这样就不分受地域和类别的影响而影响源码。二是数据推送,通过分类之后进行各个类之间的分析和研判,得到一个总的相关度,通过阀值控制是否推送,是否要这功能可以配置来实现。

欣晨制作

待识别数据 预处理 综合研判中心 地域分析 类分析 推送中心 3.2.4.7 实体抽取

互联网为舆情事件传播的高发载地,其中包含了很多有价值的线索信息,为有利于能快速、准确的从网页信息中获取有价值的线索信息,系统采用实体抽取技术,将页网信息人名、地名、机构名、专有名词等提取出来存入数据库中。

实体抽取任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,从而提取这些实体。主要涉及到三个方面的问题:

? 分词的选择:是不分词还是采用自动分词系统或人工分词;

? 领域的取舍:比如:老鹰大战雄鹿。\老鹰\和\雄鹿\均为 NBA 队名;也可

以均指动物,这就涉及到领域问题;

? 方法的选择:在方法的选择上主要分为语言学方法和统计学方法两种; 实体抽取方法主要基于以下几种方法:

欣晨制作

? 基于分词词性:鉴于已有的分词相关技术,比如:隐马尔科夫模型(HMM)、

Viterbi算法、三叉树结构和词性标注(NE)等,基于HMM的NE识别部分是已分词且标注了词性的句子,它的识别结果就可以作为实体抽取的一部分结果(比如:人名、地名和数量词等)。

? 基于规则:分词词性识别的结果作为规则修正部分的输入,当然这部份

可能没有,如果有再用正则修正抽取。比如:身份证号码的抽取,先分词标注词性(如果是数字),这样的分词结果再经过规则(正则)判断是否抽取。另外像email、电话和手机号码、QQ号码和时间等实体直接就用正则抽取了。

3.2.4.8 情感倾向分析

根据业务的不同,把负面范围也相应进行划分,基于这些考虑负面词典分为二层词典:主体词和负面行为词典。只有符合这样的模式句子片段才被认为有效负面语义。

欣晨制作

负面词典分为二层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,这样根据第一层的词前后识别第二层的词的情况计算该句相关度,最后对所有句子进行汇总分析得到内容的负面性。

3.2.4.9 相似分析

相似分析原理图

相似分析原理

通过分词和词频统计,提取特征词,并计算特征词的特征值,构成文本的特征向量V{v1, v2, v3, ..., vn},它对应的模|v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn ),两个文本的特征向量内积m*n = n1*m1 + n2*m2 + ...... + nn*mn,哪么这两个文本的特征向量的夹角的余弦(相似度)等于(m*n) /(|m|*|n|)。当两个文本特征向量夹