第一章 调查介绍
一、调查背景
中国网民人数与结构特征、互联网基础资源、上网条件和网络应用等方面情况的信息,对国家和企业掌握互联网络发展动态和决策有着十分重要的意义。1997年,经国家主管部门研究,决定由中国互联网络信息中心(CNNIC)联合互联网络单位共同实施这项统计工作。为了使这项工作正规化、制度化,从1998年起,中国互联网络信息中心于每年1月和7月发布《中国互联网络发展状况统计报告》。统计报告发表后,受到各个方面的重视,被国内外广泛引用。本次为第21次调查。
该项工作得到了信息产业部等国家主管部门的大力支持,各互联网单位、调查支持网站以及媒体等也对中国互联网络信息中心的调查工作给予了支持与配合,保证了中国互联网调查工作的顺利进行。在此,谨对他们的支持与努力表示衷心的感谢。
二、报告术语界定
◇ 网民
中国互联网络信息中心(CNNIC)对网民的定义为:半年内使用过互联网的6周岁及以上中国公民。澳门报告中仍旧沿用 “平均每周上网一小时及以上”的网民定义。
◇ 手机网民
指半年内曾经通过手机接入互联网的网民,但不限于仅通过手机接入互联网的网民。
◇ 农村网民
指目前居住在农村的网民。
◇ 家庭上网计算机
指在居民家庭中连入互联网的计算机,包括台式机和笔记本电脑。
◇ IP地址
IP地址的作用是标识上网计算机、服务器或者网络中的其他设备,是互联网中的基础资源,只有获得IP地址(无论以何种形式存在),才能和互联网相连。
◇ 域名
本报告中仅指英文域名,是指由点(.)分割、仅由数字、英文字母和连字符(-)组成的字串,是与IP地址相对应的层次结构式互联网地址标识。常见的域名分为两类:一类是国家或地区顶级域名(ccTLD),如以.CN结尾的域名代表中国;一类是类别顶级域名(gTLD),如以.COM,.NET,.ORG结尾的域名等。
◇ 网站
是指以域名本身或者“WWW.+域名”为网址的web站点,其中包括中国的国家顶级域名.CN和类别顶级域名(gTLD)下的web站点。如:对域名cnnic.cn来说,它的网站只有一个,其对应的网址为cnnic.cn或www.cnnic.cn,除此以外,whois.cnnic.cn,mail.cnnic.cn……等以该域名为后缀的网址只被视为该网站的不同频道。
◇ 静态网页
指URL中不含“?”和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。
◇ 动态网页
指URL中含“?”或输入参数的网页,包括ASP、PHP、PERL、CGI等在Server方进行处理的网页。
◇ 网页的更新周期
指网页的最后更新日期与搜索网页时的时间差。
◇ 调查范围
除非明确指出,本报告中的数据均不包括香港、澳门和台湾地区在内。
◇ 调查数据截止日期
本次调查统计数据截止日期为2007年12月31日。
三、调查方法
依据统计学理论和国际惯例,在前20次调查工作基础之上,本次调查采用了网下抽样、网上联机、网上自动搜索和统计数据上报的调查方法。
(一)电话抽样调查
电话抽样调查侧重于了解中国网民数量与结构特征、上网条件、网络应用、网民观点和非网民状况。目标总体细分如下:
子总体A:有住宅固定电话的居民
子总体B:住校的高等院校学生
子总体C:没有住宅电话的居民,再细分为:
子总体C1:有小灵通(无线市话) 的居民
子总体C2:有手机(移动、联通)的居民
子总体C3:无任何移动电话的居民
小灵通属于无线市话,接听免费,从访问实施的角度看,住宅固话与小灵通在局号上无法区分,合并两者。即子总体A和子总体C1可以合为一个子总体访问。从访问实施的角度看,可以划分如下:
子总体A+C1:有住宅固定电话(含小灵通)的居民
子总体B: 住校的高等院校学生
子总体C2: 无住宅固定电话,有手机的居民
子总体C3: 无住宅固定电话、无手机的居民
此次只针对子总体A+C1、B、C2进行调研,抽样样本总数为46,300个。不对子总体C3调研的原因在于,子总体C3中的网民规模较小,考虑到随着社会经济的发展,此部分人群会越来越少,忽略不访问。
1.子总体A+C1抽样方法
◇ 抽样方法
电话调查的抽样方法是分层二阶段抽样,目的是使所抽取的样本近似接近自加权样本。考虑到第21次调查的结果不仅要估计全国的情况,还要估计各省的情况,所以先按省分层,在各个层中独立抽取样本,然后再在省内各地市分配样本。
◇ 抽样指标
在确定各省样本量时,考虑的指标是“住宅电话覆盖6岁及以上的人数”。确定省内地市州样本量时,省下所有地市州都被抽中,采用地市州的“人口和经济指标”建立回归预测模型,估计该地市州的住宅电话数目,并将该地市州的住宅电话数目作为抽样指标,样本量按每个地市州住宅电话数占全省住宅电话数比例分配。
◇ 样本量
各省样本量根据第19次调查各省网民人数的平方根占各省网民数平方根之和的比例进行分配,不足600个样本的省份补足到600个。综合考虑精度与成本,最终样本确定为31,802个。
◇ 实施方式
根据每一地区的固定电话局号生成电话号码,随机排列之后拨打,对其中的家庭电话进行访问。为提高访问成功率,采取方便原则,接电话的居民即为被访者。访问被访者的上网基本情况,同时询问其他家庭成员的性别、年龄、是否上网等基本情况。
◇ 加权方式
利用家庭成员的性别、年龄和学历等基本情况对样本总体进行相应加权调整,减少接电话的家庭成员不随机对样本造成的偏差。
◇ 抽样调查成功率
按美国舆论研究协会(AAPOR)成功率公式三计算,本次抽样调查成功率为36.5%。
2.子总体B抽样方法
◇ 抽样方法和样本量
子总体B指在校高校学生。综合考虑成本与精度,有效样本量设定为4000个,即全国范围内抽取200所高校,每校抽取20 间宿舍,每宿舍访问1 人。抽样方法是分层三阶段抽样,使最终样本为近似自加权样本。分层指标为省份(31个省份)和学校层次(本科、专科),共分为62层(31×2=62)。每层应抽取的学校数目=该层学生数占全国学生总数的比例×200。
◇ 抽样指标
理想的抽样指标应该是住校的学生人数,由于抽样框的限制,实际采用的抽样指标是在校学生人数。
◇ 实施方式
根据抽中学校的固定电话局号生成电话号码,随机排列之后进行拨打,对其中的宿舍电话进行访问。考虑到同宿舍的人同质性较高,采取方便原则,接电话的学生即为被访者。
3.子总体C2抽样方法
◇ 抽样方法和样本量
子总体C2指无住宅市话,有手机的6岁及以上居民。为保证调查的实施,同时综合考虑成本与精度,样本量在各省的分配按照各省移动电话的卡数占全国的比例分配,样本量不足150个的省份补足到150个。总体C2样本量为10,498个。
◇ 抽样指标
理想的抽样指标应该是“无住宅市话的实际手机用户数”,但是没有这个指标的详细数据。实际抽样指标是信息产业部公布的各省手机用户卡数。
◇ 实施方式
根据手机号段随机生成手机号码,拨打甄别出属于子总体C2的被访者,直到完成所要求的子总体C2样本量。
(二)网上调查
网上调查重在了解典型互联网应用的使用情况。中国互联网络信息中心(CNNIC)在2007年12月8日~12月31日进行了网上调查。将问卷放置在中国互联网络信息中心(CNNIC)的网站上,同时在政府媒体网站、全国较大ICP/ISP网站与各省的信息港上设置问卷链接,由网民主动参与填写问卷。回收问卷后,通过技术手段进行答卷有效性检验,筛除无效答卷。网上问卷调查得到各大网站的大力支持和广大网民的热情参与。本次网上调查共收到调查问卷73,332份,经过有效性检查处理得到有效答卷69,556份。
(三)网上自动搜索与统计数据上报
网上自动搜索主要是对域名、网站数量及其地域分布等指标进行技术统计,而统计上报数据主要包括IP地址数和网络国际出口带宽数。
1.IP地址总数
IP地址分省统计的数据来自亚太互联网信息中心(APNIC)和中国互联网络信息中心IP地址数据库。将两个数据库中已经注册且可以判明地址所属省份的数据,按省分别相加得到分省数据。由于地址分配使用是动态过程,所统计数据仅供参考。同时,IP地址的国家主管部门信息产业部也会要求中国IP地址分配单位(如中国电信、中国网通等)每半年上报一次其拥有的IP地址数。为确保IP数据准确,中国互联网络信息中心(CNNIC)会将来自APNIC的统计数据与这些上报数据进行比较、核实,确定最终的IP地址数。
2.中国域名总数和网站总数
以下两部分数据相加,即可得到中国的网站和域名总数、分类数与地域分布等数据。
第一部分是.CN下的域名数和网站数,由中国互联网络信息中心(CNNIC)采用计算机网上自动搜索得到;第二部分是中国类别顶级域名与网站数,由国内各类别顶级域名注册单位协助提供。这些数据包括:所有类别顶级域名(gTLD)和域名下已开通的网站数;按.COM、.NET、.ORG分类的类别顶级域名(gTLD)和网站数;按注册单位所在省份分类的类别顶级域名(gTLD)和网站数。
3.网页数
采用计算机网上自动搜索,对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页特征及其文本内容。将由网页搜索所获得的所有中国网站的网页数和网页字节数分别相加,得到中国网页总数及网页字节数。该总数不含内容相同的重复网页。
4.网络国际出口带宽数
信息产业部通过电信企业的报表制度,定期得到中国各运营商与其他国家和地区相连的网络出口带宽总数。《中国互联网络发展状况统计报告》中纳入了这些上报数据。
|