第二部分 調(diào)查說(shuō)明
第二部分 調(diào)查說(shuō)明一、調(diào)查對(duì)象所有域名注冊(cè)單位屬于中國(guó)(不包括香港、澳門(mén)、臺(tái)灣)的網(wǎng)站總和,包括.COM, .NET, .ORG和.CN 域名(含ORG.CN ,GOV .CN, EDU.CN等) 下
第二部分 調(diào)查說(shuō)明
一、調(diào)查對(duì)象
所有域名注冊(cè)單位屬于中國(guó)(不包括香港、澳門(mén)、臺(tái)灣)的網(wǎng)站總和,包括.COM, .NET, .ORG和.CN 域名(含ORG.CN ,GOV .CN, EDU.CN等) 下的所有網(wǎng)站。 二、調(diào)查內(nèi)容
表 1 調(diào)查內(nèi)容和指標(biāo)
三、調(diào)查時(shí)間
調(diào)查時(shí)間:2002年11月-2003年3月;數(shù)據(jù)截至?xí)r間:2002年12月31日。 四、有關(guān)概念
1
在本次調(diào)查中,中國(guó)互聯(lián)網(wǎng)絡(luò)信息資源定義為:中國(guó)互聯(lián)網(wǎng)絡(luò)上公開(kāi)發(fā)布的網(wǎng)頁(yè)和
在線數(shù)據(jù)庫(kù)的總和。 2 3 4
中國(guó)互聯(lián)網(wǎng)絡(luò)是指所有域名注冊(cè)單位屬于中國(guó)大陸的網(wǎng)站總和。 在線數(shù)據(jù)庫(kù)是指以Web 為界面,提供公共檢索的收費(fèi)或免費(fèi)的數(shù)據(jù)庫(kù)。
網(wǎng)站是指有獨(dú)立域名的web 站點(diǎn),其中包括CN 和通用頂級(jí)域名(gTLD )下的web
站點(diǎn)。此處的獨(dú)立域名指的是每個(gè)域名最多只對(duì)應(yīng)一個(gè)網(wǎng)站"WWW. 域名" ,如:對(duì)域名sina.com.cn 來(lái)說(shuō),它只有一個(gè)網(wǎng)站www.sina.com.cn ,并非它有news.sina.com.cn 、mail.sina.com.cn……等多個(gè)網(wǎng)站。 5
商業(yè)網(wǎng)站指業(yè)務(wù)主要在網(wǎng)上進(jìn)行的電子商業(yè)網(wǎng)站,如新浪、搜狐、網(wǎng)易等網(wǎng)站;企
業(yè)網(wǎng)站是相對(duì)于商業(yè)網(wǎng)站而言,指業(yè)務(wù)主要在網(wǎng)下進(jìn)行的企業(yè)所建立的網(wǎng)站,如賽迪顧問(wèn)股份有限公司的網(wǎng)站www.ccidconsulting.com 。 6
網(wǎng)頁(yè)搜索是指對(duì)抽取的網(wǎng)站從其首頁(yè)(WWW 域名)開(kāi)始搜索,通過(guò)網(wǎng)頁(yè)上的層層
,鏈接,抓取所有屬于該網(wǎng)站的網(wǎng)頁(yè)的特征及其文本內(nèi)容。
7 靜態(tài)網(wǎng)頁(yè)是指URL 中不含?和輸入?yún)?shù)的網(wǎng)頁(yè),包括:*.htm、*.html、*.shtml、*.txt、*.xml等。
8 動(dòng)態(tài)網(wǎng)頁(yè)是指URL 中含?或輸入?yún)?shù)的網(wǎng)頁(yè),包括:ASP ,PHP ,PERL ,CGI 等在Server 方進(jìn)行處理的網(wǎng)頁(yè)。
9 網(wǎng)頁(yè)的編碼形式:是根據(jù)網(wǎng)頁(yè)本身的信息通過(guò)分析得到的,不是通過(guò)一篇網(wǎng)頁(yè)在HTML 中的聲明來(lái)判斷的。因?yàn)榇罅繃?guó)內(nèi)的英文網(wǎng)頁(yè)在其HTML 聲明中都是簡(jiǎn)體中文。 10 網(wǎng)頁(yè)的內(nèi)容形式:是通過(guò)文件后綴獲得的。關(guān)于圖像、音頻、視頻的文件后綴定義標(biāo)準(zhǔn)參考MIME 標(biāo)準(zhǔn)。
11 網(wǎng)頁(yè)的更新情況:網(wǎng)頁(yè)的更新時(shí)間是指搜索到該網(wǎng)頁(yè)的當(dāng)日日期與該網(wǎng)頁(yè)的最后更新日期之間的時(shí)間段。
五、調(diào)查方法
(一)數(shù)據(jù)獲取方式和渠道
域名和網(wǎng)站的總量數(shù)據(jù)通過(guò)國(guó)內(nèi)各國(guó)際域名注冊(cè)商和CNNIC 聯(lián)合獲得。
網(wǎng)頁(yè)的特征數(shù)據(jù)由百度公司利用搜索技術(shù)對(duì)全國(guó)網(wǎng)站進(jìn)行搜索獲得。搜索時(shí)通過(guò)URL 判斷同一網(wǎng)頁(yè)是否有多個(gè)鏈接指向,避免了對(duì)這類(lèi)網(wǎng)頁(yè)的重復(fù)計(jì)算,通過(guò)判斷不同網(wǎng)站的IP 地址和首頁(yè)字節(jié)數(shù)是否相同, 排除了不同域名指向同一網(wǎng)站的情況。
網(wǎng)站的特征數(shù)據(jù)及在線數(shù)據(jù)庫(kù)的特征數(shù)據(jù)通過(guò)賽迪Call Center電話問(wèn)卷調(diào)查的方式獲得。
(二)調(diào)查問(wèn)卷的抽樣方法
1.各家域名管理機(jī)構(gòu)或注冊(cè)商應(yīng)抽取的樣本網(wǎng)站數(shù)
考慮到參與本次調(diào)查域名管理機(jī)構(gòu)或注冊(cè)商的信息保密要求,抽樣過(guò)程由調(diào)查工作組提供抽樣辦法,由域名管理機(jī)構(gòu)或注冊(cè)商按照抽樣辦法抽取指定數(shù)量的網(wǎng)站作為樣本網(wǎng)站。抽樣時(shí)取樣本容量為6000個(gè)網(wǎng)站,樣本網(wǎng)站按照域名管理機(jī)構(gòu)或注冊(cè)商所注冊(cè)域名的網(wǎng)站數(shù)占全國(guó)網(wǎng)站總數(shù)的比例進(jìn)行分配。
具體計(jì)算辦法如下:M i = 6000×(n i / N)
其中:M i 表示第i 家域名管理機(jī)構(gòu)或注冊(cè)商所應(yīng)抽取的網(wǎng)站數(shù),n i表示第i 家域名管理機(jī)構(gòu)或注冊(cè)商所注冊(cè)域名的網(wǎng)站總數(shù),N 表示全國(guó)網(wǎng)站總數(shù)。由于調(diào)查過(guò)程中需要替換、補(bǔ)充樣本,因此從各家域名管理機(jī)構(gòu)或注冊(cè)商抽取的網(wǎng)站樣本數(shù)將多于最終進(jìn)行調(diào)查的網(wǎng)站數(shù)。
2.委托各家域名管理機(jī)構(gòu)或注冊(cè)商進(jìn)行網(wǎng)站樣本抽取
各家域名管理機(jī)構(gòu)或注冊(cè)商在提供了具有要求信息的網(wǎng)站名錄(抽樣框)的前提下,按
,照以下步驟抽取樣本: 步驟1:
先排序:由域名管理機(jī)構(gòu)或注冊(cè)商對(duì)其抽樣框(所注冊(cè)域名的網(wǎng)站名錄及相關(guān)要求信息)首先按照" 省市區(qū)" 進(jìn)行排序,然后在各省市區(qū)下再按網(wǎng)站域名類(lèi)型排序,進(jìn)而在網(wǎng)站域名類(lèi)型下按網(wǎng)站所屬單位性質(zhì)排序(排序的次序參考下表)。
注:這實(shí)際上是一個(gè)多關(guān)鍵字排序,第一關(guān)鍵字為" 省市區(qū)" ,第二關(guān)鍵字為" 網(wǎng)站域名類(lèi)型" ,第三關(guān)鍵字為" 網(wǎng)站所屬單位性質(zhì)" ,如果沒(méi)有" 網(wǎng)站所屬單位性質(zhì)" 則考慮按照" 網(wǎng)站建立時(shí)間" 進(jìn)行排序。
后編號(hào):最后按照三次排序后的順序依次對(duì)網(wǎng)站進(jìn)行編號(hào)。 省市區(qū)排序的先后次序規(guī)定如下:
表 2 地區(qū)排序表
注:本次調(diào)查暫不包括香港、澳門(mén)、臺(tái)灣。 網(wǎng)站域名類(lèi)型排序次序規(guī)定如下
表 3 域名類(lèi)型排序表
步驟2:
按照前面指定的數(shù)量從網(wǎng)站庫(kù)中隨機(jī)抽取M 個(gè)網(wǎng)站作為貴單位所需提供的網(wǎng)站樣本。抽取規(guī)則:首先在所有排完序的網(wǎng)站中從序號(hào)1網(wǎng)站至序號(hào)[n/M]網(wǎng)站中隨機(jī)抽取一個(gè)網(wǎng)站(假設(shè)為序號(hào)S 網(wǎng)站),則序號(hào)S +i[n/M] (i=0,1,2…M-1) 的所有網(wǎng)站即為樣本網(wǎng)站。
步驟3:
將以上步驟所抽取的樣本網(wǎng)站及其相關(guān)信息(包括:網(wǎng)站名稱(chēng)、網(wǎng)站域名、網(wǎng)站所在地、網(wǎng)站域名類(lèi)型、網(wǎng)站所屬單位性質(zhì)、網(wǎng)站聯(lián)系人、聯(lián)系電話、E-mail )存為Excel 工作表文件。
六、調(diào)查問(wèn)卷
本次問(wèn)卷調(diào)查的實(shí)際網(wǎng)站樣本數(shù)為5932個(gè),采用專(zhuān)業(yè)呼叫人員進(jìn)行電話問(wèn)卷,最終獲得有效網(wǎng)站樣本數(shù)為2254個(gè),有效樣本率為38.0。在置信度為95的精度要求下,可保證最大允許絕對(duì)誤差小于2。
調(diào)查問(wèn)卷時(shí)間為2002年12月-2003年3月。問(wèn)卷所采集數(shù)據(jù)的相應(yīng)記錄時(shí)間為2002年12月31日。關(guān)于網(wǎng)站問(wèn)卷調(diào)查表內(nèi)容請(qǐng)見(jiàn)本報(bào)告附錄。
七、組織單位
1、委托單位:
國(guó)務(wù)院信息化工作辦公室
2、實(shí)施單位:
中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院(CCID )
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC )
3、協(xié)助單位(按字母排序):
百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
北京東方網(wǎng)景信息科技有限公司
北京信諾立興業(yè)網(wǎng)絡(luò)通信技術(shù)有限公司
創(chuàng)聯(lián)萬(wàn)網(wǎng)國(guó)際信息技術(shù)(北京)有限公司
東方通信股份有限公司
廈門(mén)精通科技實(shí)業(yè)有限公司
新網(wǎng)Chinadns -北京信??萍及l(fā)展公司