第一部分 调查背景
信息资源是国家的战略资源,它在国民经济信息化中位于核心的地位。信息资源对促进我国信息化的快速发展,导正我国信息化的发展方向,对拉动国民经济和社会发展,提高全民族的文化素质和创新能力,促进社会进步和繁荣,实施西部大开发战略等方面有着十分重要的意义。
互联网络信息资源是信息资源的重要组分,自从20世纪90年代中期开始,互联网在我国迅猛发展,网上中文信息资源快速增长,到2001年4月30日,网上可用数据库达到45598个,共160万个网页,3160G数据量。网上政府信息、行业和企业信息、科技教育信息、文化娱乐信息、新闻信息、旅游信息、区域特色信息等均已形成一定规模。
随着互联网络的飞速发展,我国互联网络信息资源得到了很大的发展,但是我国互联网络信息资源不断进展的同时,存在一些问题需要重视。例如,网络和数据库存在大量低水平重复建设,难以实现互联共享;信息资源的开发滞后应用,存在大量信息孤岛现象等。因此,加大对我国互联网络信息资源开发和利用的引导力度,迫在眉睫。
为加深政府对我国互联网络信息资源开发和利用情况的把握,包括信息资源的存量、增量以及地区和行业分类特征等,为加快制定有关信息资源发展政策和措施提供重要参考依据,促进政府对信息资源开发的有力引导,促进我国互联网络信息资源的充分利用,国务院信息化工作办公室决定对我国各行、各业、各地区互联网络信息资源数量情况进行全面调查。
本次调查是我国互联网络信息资源的第二次数量调查,开始于2002年12月,结束于2003年3月,历时4个月。在保持与第一次调查有一定连续性、借鉴第一次调查成功经验的基础上,在调查方法、调查深度、结果分析等方面有所创新。本次调查初步探索了我国互联网络信息资源发展中的问题和规律,为我国政府进一步正确引导互联网络信息资源的开发利用提供了重要参考。
第二部分 调查说明
一、调查对象
所有域名注册单位属于中国(不包括香港、澳门、台湾)的网站总和,包括.COM, .NET, .ORG和.CN域名(含ORG.CN,GOV.CN, EDU.CN等)下的所有网站。
二、调查内容
表 1 调查内容和指标
指标 域名数量 网站数量 网页数量 域名 各地区域名分布状况 各地区网站分布状况 各种性质的网站分布状况 主要类型网站提供的服务 各行业网站分布状况 网站 网站基本情况 每天页面浏览量 服务器拥有情况 网站的链接数 网站的员工数 网站成立时间 网页按内容形式分类比例 网页按性质分类比例 网页 网页总字节数 网页的更新周期 网页编码状况 按性质分类比例 在线数据库 按内容分类比例 按面向对象分类比例 在线数据库更新状况 其它载体情况 数据来源 域名注册和管理机构 域名注册和管理机构 计算机自动搜索 域名注册和管理机构 域名注册和管理机构 备注 累计得总量 累计得总量 含静、动态比例 - 按照省级行政区域划分按照网站的域名特征进政府、商业、企业等 按照标准行业分类法 问卷调查 - 图像、音频和视频等格式 政府、企业、商业等 计算机搜索 以字节数计算 一日、三日、一周等 简、繁体中文、英文等 政府、企业、商业网站等 产品、科技信息数据库等 通过问卷调查获得 政府部门、图书馆等 - 否、是(光盘、纸质等)
三、调查时间
调查时间:2002年11月-2003年3月;数据截至时间:2002年12月31日。
四、有关概念
1.在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。
2.中国互联网络是指所有域名注册单位属于中国大陆的网站总和。 3.在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。 4.网站是指有独立域名的web站点,其中包括CN和通用顶级域名(gTLD)下的web站点。此处的独立域名指的是每个域名最多只对应一个网站\域名\,如:对域名sina.com.cn来说,它只有一个网站www.sina.com.cn,并非它有news.sina.com.cn、mail.sina.com.cn……等多个网站。
5.商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐、网易等网站;企业网站是相对于商业网站而言,指业务主要在网下进行的企业所建立的网站,如赛迪顾问股份有限公司的网站www.ccidconsulting.com。 6.网页搜索是指对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。
7.静态网页是指URL中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。
8.动态网页是指URL中含?或输入参数的网页,包括:ASP,PHP,PERL,CGI等在Server方进行处理的网页。
9.网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML中的声明来判断的。因为大量国内的英文网页在其HTML 声明中都是简体中文。 10.
网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文
件后缀定义标准参考MIME标准。 11.
网页的更新情况:网页的更新时间是指搜索到该网页的当日日期与该网
页的最后更新日期之间的时间段。