導讀:
針對中國700萬問題彩民的調查,管理學博士邵祥東提出了四點質疑。最后總結到,問題彩民調查在抽樣方法、樣本框等方面存在諸多問題,就算對采集的數據做了嚴格處理,但因抽樣方法錯誤,則結論也是錯誤的,至少是不準確的。700萬問題彩民的調查結論可能失真。
疑點一:樣本框是否被擴大化?
若想調查中國問題彩民及行為,前提是界定樣本框,即參與問卷調查的人必須是彩民,之后才可繼續(xù)研究其中的問題彩民。抽樣框是指用以代表總體,并從中抽選樣本的一個框架,其具體表現形式主要有包括總體全部單位的名冊、地圖等。抽樣框在抽樣調查中處于基礎地位,是抽樣調查必不可少的部分,其對于推斷總體具有相當大的影響。
此次問題彩民調查面向的主要人群是上網的人(不一定是網民),調查對象可能包括以下三類群體影響樣本框的準確:一是非彩民人群,其填寫的問卷肯定是無效問卷;二是長期購買非法彩票的人,其成為問題彩民的根源并非因為購買國家彩票,而是因為長期大額購買非法彩票所致;三是網絡黑客等技術類人群,他們可以突破確保網絡調查安全而設置的防護網,由此會引發(fā)網絡刷票行為。如果問題彩民調查未能控制這些人群,則樣本框必然擴大,進而導致調查結論失真。
疑點二:抽樣方法是否科學及是否誤用偶遇抽樣法?
最近一段時期,社會各界對北京師范大學彩票研究中心在今年3月份發(fā)布的《中國彩民行為網絡調查》(下稱“問題彩民調查”)中提到的中國現有問題彩民高達700多萬的研究結論高度關注,并就國家彩票的公益性和彩票機構的社會責任展開討論。應當予以肯定的是,該課題研究具有歷史開創(chuàng)性和一定的現實意義。但是,調查方法的科學性和研究結論的準確性存在多個疑點,本文現從社會調查方法角度加以分析。
社會調查中的抽樣方法主要有純隨機抽樣、系統抽樣、類型抽樣、整群抽樣四種。
純隨機抽樣法的特點是:每個樣本單位被抽中的概率相等,樣本的每個單位完全獨立,彼此間無一定的關聯性和排斥性。該抽樣法適用于總體單位之間差異程度較小和數目較少時。
系統抽樣法的特點是:抽出的單位在總體中是均勻分布的,且抽取的樣本可少于純隨機抽樣。它是實際工作中應用較多的方法,目前我國城鄉(xiāng)居民收支等調查,都采用這種方法。
類型抽樣的特點是:通過劃類分層,增大了各類型中單位間的共同性,容易抽出具有代表性的調查樣本。該方法適用于總體情況復雜,各單位之間差異較大,單位較多的情況。
整群抽樣的特點是:調查單位比較集中,調查工作的組織和進行比較方便。但調查單位在總體中的分布不均勻,準確性要差些。因此,在群間差異性不大或者不適宜單個抽選調查樣本的情況下,可采用這種方法。
中國彩民群體數量大,個體差異也大,不適合采用純隨機抽樣法和整群抽樣法。而要采用系統抽樣和類型抽樣需要分別解決好兩個問題,如采用系統抽樣法需要確定樣本標志分為相關標志和無關標志,它們對等距抽樣的作用和相應的估計進度各有不同的影響。相關標志即其與調查標志具有共同性質或密切關系。
很顯然,如果采用系統抽樣法,則以全國彩民在一定期限內的購彩支出額為相關樣本標志為好。但是,彩民群體數量大,且其購彩額無法得知。所以,即便采用系統抽樣法,若樣本標志處理不好,也會出現結論錯誤。
根據社會調查理論和經驗做法,關于中國問題彩民調查采用多段分層抽樣為宜。不過,多段分層抽樣不適合網絡調查(比如樣本無法科學分配)。綜上分析,四種社會調查方法都難以有效解釋700萬問題彩民這一調查結論的準確性。
就實際調研情況推斷,問題彩民調查有誤用偶遇抽樣法的可能。偶遇抽樣基本理論依據是,被調查總體的每個單位都是相同的,因此把誰選為樣本進行調查,其調查結果都是一樣的。而事實上并非所有調查總體中的每一個單位都是一樣的。只有在調查總體中各個單位大致相同的情況下,才適宜應用偶遇抽樣法。它適用于探測性調查,或調查前的準備工作。問題彩民調查采取的是網絡調查法,極可能陷入了偶遇抽樣法,如果推斷成立,則抽樣結果偏差增大,可信程度較低,樣本沒有足夠的代表性,調查結論也必然錯誤。
疑點三:網絡調查法的弊端是否被有效控制?
網絡調查法是一種新興的社會調查方法,它具有快捷、節(jié)省費用等優(yōu)點,但也存在一些弊端。
第一個弊端是技術手段無法控制調查對象身份和數據的真實性。目前,網絡調查法采用的主要技術手段有四種:一是檢驗網上用戶身份。即在調查中,為盡可能消除同一個被調查者多次填寫問卷,常采用“IP+若干特征標志”技術手段作為判斷調查對象填寫次數唯一性的檢驗條件。在設計指標體系時,所有可以肯定的邏輯關系和數量關系都應充分利用,并被列入調查質量檢驗程序,以實現網上用戶身份的唯一性,排除干擾;二是電子郵件+網絡密碼。采用電子郵件邀請和在線調查相結合方法,給調查對象提供一個含有密碼的鏈接,每一個調查對象的密碼彼此不同,且只能使用一次。當調查對象點擊鏈接時,程序會讀取密碼并與數據庫核對,這樣可避免不合乎標準的人填寫問卷,防止調查對象多次填寫問卷;三是隨機IP自動撥叫技術措施。通過一個隨機IP地址發(fā)出軟件產生一批隨機IP,再由一個IP自動撥叫軟件向這些IP發(fā)出呼叫,傳送一個請調查對象參加調查的信息。收到該信息的網上用戶可以按照意愿決定是否參加調查;四是利用過濾器技術措施。根據具體調查問題選取有效的特征指標,如調查對象年齡、性別、學歷、職業(yè)、職務、地區(qū)以及其他品質標志和數量標志等作為特征標志,通過特征標志將調查表中代表性差的樣本過濾出去。
但是,這四種技術措施仍然無法控制實際填寫問卷的人的主觀行為,如其是否是彩民或其填寫的信息是否準確等,都無法驗證。就算調查者在調查之前制定了樣本分配方案,準確限定了調查對象的身份,但是仍無法有效控制調查提供的信息的準確性。而且,網絡刷票行為也無法得到有效控制。如果采用一對一的訪談式調查,這些問題就可以避免或減少。
第二個弊端是彩民群體和網民群體在地區(qū)空間分布方面存在差異。而且,網絡調查對象有限,選取的樣本難以具有代表性。
2012年1月16日,中國互聯網絡信息中心(CNNIC)發(fā)布了《第29次中國互聯網絡發(fā)展狀況統計報告》,數據顯示:當前互聯網在全民中的普及率不到四成,從地區(qū)空間分布結構看,互聯網發(fā)展的地域差異明顯,北京市的互聯網普及率高達70.3%,而互聯網普及程度較低的云南、江西、貴州等省份互聯網普及率不到25%。普及程度超過全國平均水平的省市大部分集中在東部沿海。中部省市的互聯網普及率低于全國平均水平。西部省市普及率低于全球平均水平。網上調查參與者多是網民,網絡調查的總體即為是網民。但是目前中國的網民只占中國人口極少的一部分。我國網絡發(fā)達地區(qū)集中在東部地區(qū),僅以東部地區(qū)的彩民行為解釋全國彩民行為,難具全國代表性。
在城鄉(xiāng)結構上,2011年,農村網民占整體網民比例為26.5%。網民群體集中在城鎮(zhèn)地區(qū),農村地區(qū)網絡普及率低。調查結果很顯然更多反映了城鎮(zhèn)地區(qū)彩民行為,對農村地區(qū)彩民行為的代表性差。
由此可見,以全國不足四成、且存在嚴重地區(qū)結構差異的網民做為問題彩民調查總體得出的全國性結論很難具有說服力。
此外,從年齡結構上分析,2011年,我國10-29歲網民所占比重為56.5%,10-39歲網民所占比重為82.2%,20-29歲網民所占比重為55.5%。即部分70后、多數80后和90后人群是網民主體。問題彩民調查得出,73%的彩民年齡集中在26-34歲,這表明彩民具有年輕化特征。近些年來,深圳、廣州、武漢、合肥、南昌、沈陽等地福彩機構都做過本地區(qū)彩民消費調查,得出的結論是彩民年齡主要集中在35-55周歲,并不具有年輕化特征。而且,如果問題彩民調查得出的結論為真,則多數彩民的年齡段和網民主體的年齡段高度一致,這令人產生如下疑問:參與網絡調查的彩民群體基本上都是網民,非網民的彩民群體被排除在調查范疇之外。從職業(yè)結構方面看,學生是網民中規(guī)模最大的群體,占比為30.2%,如果結合這一指標,那么可以推斷出參與問題彩民調查的人群中可能包括了收入水低的在校學生,而這部分群體并不是我國彩民主體?!兜?9次中國互聯網絡發(fā)展狀況統計報告》數據還顯示,截至2011年12月底,中國網民規(guī)模達到5.13億,其中,中國手機網民規(guī)模達到3.56億。這部分群體也多是年輕的在校學生。
網絡調查法的作用是很有限的。如果調查“中國城鎮(zhèn)地區(qū)居民上網購物狀況”,則網絡調查無疑是一種較好的社會調查方法。但,若是調查中國民眾對目前南海局勢的看法,則網絡調查的代表性就無法保障了,因為很多關注南海局勢的民眾并不上網,尤其是年紀稍大的民眾。
疑點四:樣本數越大,調查結論越準確?
問題彩民調查顯示,參與調查的人數高達176200多人,有效問卷也多達38000多份。這給公眾傳遞了一個信號:樣本數越大,調查結論越準確。事實果真如此?以具有代表性的是美國著名刊物《文學文摘》預測1936年美國總統選舉結果出現重大失誤的實例。當年的兩位候選人是民主黨的羅斯福和共和黨的蘭登,大多數民意測驗,新聞機構和政治觀察家都預測羅斯福會獲勝,但《文學文摘》與眾不同,它預言蘭登會以57%:43%的優(yōu)勢戰(zhàn)勝羅斯福。最后結果是:羅斯福以62%:38%的壓倒優(yōu)勢當選。由于這個重大失誤,這家雜志不久即宣告破產。該刊起初擬訪問對象為1000萬人,研究人員認為在這個龐大的樣本中,美國社會各階層的代表性會好些。但這1000萬人中只有240萬人寄回了對問題單的回答。較富有的人,對當時現實抱比較滿意態(tài)度以及文化水平較高的人,做出回答的可能性要大些,這個傾向有利于共和黨。這是一個系統性偏差,它加重了原來在挑選樣本時已存在的系統性偏差。這一點曾在芝加哥地區(qū)得到證實:該刊向芝加哥地區(qū)1/3的登記選民發(fā)了問題單,有20%的人做了回答,其中半數以上有利于蘭登。但實際結果是:羅斯福和蘭登在芝加哥的支持率確實2:1。
類似于本例的錯誤,在其他抽樣調查工作中也時有發(fā)生。除了有意的偏向外,為圖工作省事而不去認真研究隨機化抽樣方案,是一個常見的原因。
網絡抽樣調查是根據部分實際調查結果來推斷總體標志總量的一種統計新興調查方法。它需按照科學的原理和計算,從若干單位組成的事物總體中,抽取部分樣本單位來進行調查、觀察,用所得到的調查標志的數據以代表總體,推斷總體。問題彩民調查在抽樣方法、樣本框等方面存在諸多問題,就算對采集的數據做了嚴格處理,但因抽樣方法錯誤,則結論也是錯誤的,至少是不準確的。700萬問題彩民的調查結論可能失真。
(邵祥東)
邵祥東,管理學博士,在媒體發(fā)表彩票文章39篇。專著《中國社會福利事業(yè)發(fā)展與挑戰(zhàn):以福利彩票為范例的研究》。參編著作《民政法制概述》(2011年8月1日出版),負責“福利彩票法制概述”一章。
參與國家社科基金課題和國家自然科學基金課題2項,國家發(fā)改委、遼寧省科技廳、省財政廳、省哲學社科基金、省發(fā)改委等重大課題9項。發(fā)表論文17篇,參編著作5部,獲省級科研成果二等獎、三等獎5項。
?
相關新聞:
我國問題彩民成亟待解決問題:打工者癡迷度高?
·凡注明來源為“??诰W”的所有文字、圖片、音視頻、美術設計等作品,版權均屬??诰W所有。未經本網書面授權,不得進行一切形式的下載、轉載或建立鏡像。
·凡注明為其它來源的信息,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
網絡內容從業(yè)人員違法違規(guī)行為舉報郵箱:jb66822333@126.com