視聽(tīng)率調查在我國已有二十余年發(fā)展歷史,借助于統計學(xué)的創(chuàng )立和日臻成熟,視聽(tīng)率調查得以借助較少的樣本對一個(gè)城市、省乃至全國的受眾的視聽(tīng)行為進(jìn)行推斷??梢哉f(shuō),在視聽(tīng)率調查的整個(gè)流程中,統計學(xué)的理論和方法貫穿在從樣本量確定、抽樣方法的制定、抽樣的執行乃至于數據處理的每一個(gè)環(huán)節中,在接下來(lái)的幾期中,我們即以此為切入點(diǎn),對視聽(tīng)率調查中蘊含的統計學(xué)小知識加以介紹。
本期介紹的概念是誤差。傳統收視率調查是一種抽樣調查,是從研究對象的全部單位中抽取一部分單位進(jìn)行考察和分析,并用這部分單位的數量特征去推斷總體的數量特征的一種調查方法[1]。與抽樣調查相對應,近年來(lái)隨著(zhù)數據技術(shù)的迅猛發(fā)展,大數據日益融入受眾的生活日常。大數據的“大”不僅是就其數據量本身而言,更重要的是其所宣揚的“要總體而非樣本”的數據采集理念。抽樣調查由于只抽取部分樣本對總體進(jìn)行推斷,因而不可避免存在著(zhù)一定的誤差;而大數據因為強調的是全量調查,所以有大數據搜集者宣稱(chēng)其已經(jīng)沒(méi)有誤差。但是事實(shí)真是如此嗎?
伴隨著(zhù)抽樣調查方法、大數據運用等在社會(huì )統計中的適用范圍不斷擴大,研究者一直致力于調查質(zhì)量的不斷提升,而在各種調查方法中,基于不同的操作和原因,會(huì )產(chǎn)生如下三種誤差[2]。
第一種誤差是抽樣誤差(Sampling Error)。抽樣誤差是由于只抽取部分群體進(jìn)行調查(非普查)而造成的誤差,抽樣誤差不可避免,但是可以通過(guò)科學(xué)的抽樣設計和樣本量的提升將其控制在允許的范圍之內,并且抽樣誤差是可以計算的。
第二種誤差是覆蓋誤差(Coverage Error)。覆蓋誤差主要是指在確定抽樣框時(shí),因一些目標群體沒(méi)有被包括進(jìn)抽樣框而造成的undercoverage。
第三種誤差是無(wú)應答誤差(Nonresponse Error)。無(wú)應答誤差是指當應答者和無(wú)應答者之間存在差異的時(shí)候所造成的誤差。無(wú)應答分為兩種情況,受訪(fǎng)者拒訪(fǎng)的“個(gè)體無(wú)應答”,受訪(fǎng)者不愿意回答某些題目的“項目無(wú)應答”。
可以看到,在傳統的小樣本抽樣調查中,第一種誤差(抽樣誤差)是不可避免的,但可以通過(guò)抽樣設計的精進(jìn)和樣本量的提升大大降低抽樣誤差,如CSM所采取的多階段、PPS、整群抽樣較簡(jiǎn)單隨機抽樣能進(jìn)一步提高精度,且近年來(lái)CSM也一直致力于不同調查區域樣本量的提升,許多單城市的樣本量已經(jīng)達到500-1000戶(hù),實(shí)際的抽樣誤差遠低于3%這個(gè)成本與精度的平衡標準。相對而言,號稱(chēng)全體數據的大數據,其數據量的急劇增加所能降低的抽樣誤差其實(shí)是比較有限的,較抽樣調查而言并不經(jīng)濟。
而大數據也并非如傳說(shuō)中的完美無(wú)瑕。實(shí)踐中,大數據中出現第二種誤差(覆蓋誤差)的情況并不少見(jiàn),最著(zhù)名的如當年美國“蘭頓總統”事件由于調查的1000萬(wàn)人與研究總體不對應而產(chǎn)生的覆蓋偏差?!皵祿幠=全部”并不成立,我們能獲取到的數據,仍然只是一些有著(zhù)或多或少偏差的樣本數據[3]。大數據的“大”更容易使人忽視抽樣框(大數據使用者往往稱(chēng)其為全體)選擇不當而導致的代表性問(wèn)題。盡管傳統抽樣調查也可能產(chǎn)生覆蓋誤差,但科學(xué)的抽樣設計在一定程度上能減少這種誤差,但是大數據的覆蓋誤差問(wèn)題比傳統抽樣調查更嚴重、更隱蔽。
在大規模的以人群為基礎的調查研究中心,項目無(wú)應答現象普遍存在,第三種無(wú)應答誤差也不可避免,如調查對象拒絕回答或忘記某項或某些問(wèn)題、結局變量的缺失、回答變量不可用等,這在一定程度上會(huì )導致估計偏性或降低統計效率[4]。收視率固定樣組調查,成功建立的固定樣組,相當于已經(jīng)將不愿意配合或參加調查的群體排除,且隨著(zhù)技術(shù)的發(fā)展而不斷更新的收視測量設備,不斷降低被調查者配合的難度,大大減少了無(wú)應答誤差。在實(shí)際應用中,成功回傳數據的樣戶(hù)比例達到一定的標準(通常在90%以上),才生成商業(yè)化的視聽(tīng)率數據,同時(shí)通過(guò)后期的加權也可以降低無(wú)應答帶來(lái)的偏差。而大數據是對痕跡的自動(dòng)記錄,本身不具備甄別和篩選功能,不僅會(huì )受到大量沒(méi)有實(shí)際意義、無(wú)價(jià)值甚至虛假信息的干擾,同時(shí)對于研究有重大意義的個(gè)體或者項目信息的缺失也無(wú)從得知,誤差更加難以控制。
上述三種誤差是傳統抽樣調查數據和當前發(fā)展得如火如荼的大數據都不可避免存在的誤差,第一種誤差屬于抽樣誤差,可知可控但不可避免;后兩種誤差則都屬于非抽樣誤差,相較于抽樣誤差而言更加復雜且難以測量。僅以數據量的大小來(lái)評判數據本身的優(yōu)劣,難免有失偏頗,而通過(guò)更加嚴謹的方法和手段盡量減少各種誤差,提高分析和預測的精度才是數據分析的應有之義。
[1]百度百科:https://baike.baidu.com/item/%E6%8A%BD%E6%A0%B7%E8%B0%83%E6%9F%A5%E6%B3%95/1337766
[2]整理自《Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method》第一章,2014年第四版,by Don A. Dillman。
[3]https://blog.csdn.net/a_step_further/article/details/51043238
[4]劉世煒王春平楊功煥:《調查研究中心項目無(wú)應答誤差的識別與處理》,《中國衛生統計》,2008年第2期。
《有用的統計學(xué)》: 抽樣調查與誤差

















聯(lián)系客服