原作者: Jakob Nielsen





人們總是認為,用戶(hù)測試是一個(gè)復雜且代價(jià)昂貴的事情。一個(gè)網(wǎng)站設計項目需要一個(gè)龐大的預算和長(cháng)長(cháng)的時(shí)間表。其實(shí),可用性測試并非如大多數人認為的是浪費資源的事情。在你可承受的測試成本范圍內,使用不超過(guò)5個(gè)用戶(hù),即可達到很好的測試效果。
最初的研究過(guò)程中,Tom Landauer 和我得出了一個(gè) 可用性測試方面的,關(guān)于測試人員的數量的公式:
假設一個(gè)可用性測試的測試人員數量為n,N為所有可用性測試發(fā)現的問(wèn)題總數,L是單個(gè)測試人員的問(wèn)題發(fā)現率。
N(1-(1-L)n)
我們發(fā)現,大多數項目的平均的問(wèn)題發(fā)現率為31%。當 L=31%時(shí),可以得到如下的圖形::
當用戶(hù)為零時(shí),發(fā)現的問(wèn)題數目是零,即“零用戶(hù)零發(fā)現”。我們可以看到,第一個(gè)用戶(hù)幾乎發(fā)現的三分之一的設計的可用性的問(wèn)題,和零發(fā)現截然不同。當我們看第二個(gè)用戶(hù)的測試情況時(shí),可以發(fā)現,有一部分問(wèn)題是和第一個(gè)user重合的。人們之間的行為或發(fā)現有一定的差異,第二個(gè)user可以發(fā)現一些不同于第一個(gè)user的問(wèn)題,有區別于第一個(gè)用戶(hù)的新發(fā)現,但是問(wèn)題數量不及第一個(gè)用戶(hù)的最初發(fā)現。第三個(gè)用戶(hù)做了很多前兩者重復的事情,有些甚至重復2次。另外,當然,第三個(gè)用戶(hù)本身異能發(fā)現少量的新問(wèn)題,顯然數量遠遠不及前 兩個(gè)用戶(hù)。
現在,加入更多的測試人員(user),你會(huì )發(fā)現一個(gè)現象,隨著(zhù)人數的增加,重復的事情一再出現,發(fā)現的新問(wèn)題發(fā)現率開(kāi)始下降。顯然不再需要讓更多的人來(lái)重復發(fā)現重復的問(wèn)題,自然回回去重新設計,以解決發(fā)現問(wèn)題。
到了第5個(gè)user,你就是在浪費時(shí)間,去做重復的事情,并且幾乎再沒(méi)有先的發(fā)現。
迭代設計
上圖中的曲線(xiàn)很清除地標明,至少需要15個(gè)用戶(hù)去發(fā)現所有的設計中的可用性問(wèn)題。但是,為什么我更傾向于推薦用更少的測試人員呢?一個(gè)主要的原因是合理分配可用性測試的預算。讓我們看看,當你招聘15個(gè)客戶(hù)代表來(lái)對你的設計進(jìn)行測試時(shí),就一位著(zhù)你得花費5個(gè)用戶(hù)的3倍的費用!
當我們去做用戶(hù)的可用性測試時(shí),最終的目標是為了解決或者提高實(shí)際的設計,而不是僅僅得到一份書(shū)面的報告。當5個(gè)用戶(hù)的首次測試發(fā)現了85%的可用性問(wèn)題時(shí),你已經(jīng)可以在下一個(gè)desagn中修復這些問(wèn)題。
如果想發(fā)現更多的問(wèn)題,當然需要再次測試。即使我說(shuō)重新設計可以修復第一次測試時(shí)發(fā)現的問(wèn)題,事實(shí)是你可能認為新的設計可以客服已有的問(wèn)題。但是,在沒(méi)有人能設計出更完美的用戶(hù)界面之前,無(wú)法保證新的設計可以修復事實(shí)存在的問(wèn)題。第二次測試可以回歸已有的問(wèn)題,確認是否修復。同時(shí),一個(gè)新的設計,意味著(zhù)還需要一次新的用戶(hù)測試。
5個(gè)用戶(hù)的第二次測試,可以發(fā)現第一次測試時(shí)遺留的15%的問(wèn)題。(仍舊會(huì )有2%的問(wèn)題遺留要等到第三次測試來(lái)發(fā)現)。
最終,第二次測試的深度可以設計到網(wǎng)站的設計架構,獲取到我們所需的一些信息,如體系架構、任務(wù)流程等是否符合客戶(hù)需求。這些問(wèn)題常常在隱藏在一些表面的可用性問(wèn)題之后,而為人們所忽略。
所以,第二次的測試作為第一次測試的質(zhì)量保障,并且可以發(fā)現更深入的問(wèn)題。第二次測試會(huì )為系統的重新設計提供一份新的問(wèn)題清單,但數量顯然會(huì )少于第一次測試。但是,本次測試并不能完全補充第一次測試,還需要第三次的測試來(lái)進(jìn)行查漏補缺。
5個(gè)用戶(hù)三次的最終測試效果要遠高于15個(gè)用戶(hù)測試一次的效果。
為什么不建議單用戶(hù)的測試?單個(gè)人的行為總會(huì )有一些風(fēng)險,人總會(huì )有一些意外的,不確定的行為。
你可能會(huì )認為15個(gè)用戶(hù)做一輪測試,比5個(gè)用戶(hù)做3輪要好。因為曲線(xiàn)表明,第一個(gè)用戶(hù)的發(fā)現率明顯高于后續的用戶(hù),但是,為什么我們要堅持多輪測試??jì)蓚€(gè)原因:第一,通過(guò)觀(guān)察3個(gè)人就可以看到用戶(hù)行為的多樣性,可以洞察到那些行為是獨特的那些是可以一概而論的;第二,用戶(hù)測試的成本效益分析表明,3-5個(gè)測試用戶(hù)的最佳比例,依賴(lài)于測試的風(fēng)格。初始的運行成本和測試計劃相關(guān),多個(gè)用戶(hù)對于降低最初的成本效果更好。
什么時(shí)候增加更多的測試用戶(hù)
當你的網(wǎng)站客戶(hù)群覆蓋到幾個(gè)不同高度的用戶(hù)群時(shí),你需要增加更多的測試用戶(hù)。上面公式的適用于網(wǎng)站的用戶(hù)群接近或者差異很小時(shí)。舉個(gè)例子,當你的網(wǎng)站客戶(hù)群是定位于父母和孩子時(shí),你就需要充分考慮到兩個(gè)不同群里的使用行為。系統的相同之處是對于采購代理商的銷(xiāo)售人員之間的連接。
甚至當用戶(hù)群體差異性完全不同時(shí),在兩類(lèi)人之間也可發(fā)現很多相似之處。畢竟,所有的用戶(hù)都是人。所有的可用性問(wèn)題反應的都是人的行為與網(wǎng)站之間的互動(dòng)和影響。
在測試不同的用戶(hù)群時(shí),你不需要每個(gè)用戶(hù)群中都有很多測試人員(user),有以下的一個(gè)測試人員數目就足夠了:1、如果測試兩個(gè)用戶(hù)群,則每類(lèi)群需要3-4個(gè)用戶(hù);2、如果測試3個(gè)或更多的用戶(hù)群,則每類(lèi)有3個(gè)測試用戶(hù)就可以了(至少3個(gè)users就可以確保你覆蓋到某一個(gè)用戶(hù)群中的不同的行為)
參考:Nielsen, Jakob, and Landauer, Thomas K.: "A mathematical model of the finding of usability problems," Proceedings of ACM INTERCHI'93 Conference (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.
聯(lián)系客服