時(shí)間:2014-04-14 09:59 來(lái)源:曉生 作者:劉兆峰翻譯
當你選擇可用性研究的度量方法時(shí),你應該考慮很多的問(wèn)題才有可能獲得想要的結果,這其中包括研究目的,用戶(hù)目標,技術(shù)上收集和分析數據的可行性,以及項目預算和交付的時(shí)間問(wèn)題。因為每一個(gè)可用性研究具有獨特的屬性,我們不能確切地規定每種類(lèi)型的研究應該用什么度量方法。
相反,我們能夠定義的,是已經(jīng)確定的是十種可用性研究類(lèi)型,以及就每種度量類(lèi)型提出的參考建議。我們提供僅僅是簡(jiǎn)單的就如何去執行一個(gè)具有相似特性的可用性研究實(shí)踐過(guò)程時(shí)的建議。反之,對你的研究來(lái)說(shuō)必不可少的度量指標可能沒(méi)有出現在項目列表當中。同時(shí),我們強烈建議你深入挖掘你手中的原始數據找到新的度量數據,這對項目目標意義重大。
十種常用的可用性研究情景在表中羅列出來(lái)了。常用的或者適合每個(gè)可用性研究情景的度量方法都顯示了出來(lái)。以下章節將就這十種情景來(lái)分別討論。

1.完成一筆交易
很多可用性研究的目的是使交易盡可能順利完成。交易的形式多樣,可能需要一個(gè)用戶(hù)完成一次產(chǎn)品的購買(mǎi),注冊一個(gè)新的軟件,或者出售一只股票等。交易通常有一個(gè)界定明確的開(kāi)始和結束點(diǎn)。例如對于一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō),用戶(hù)將看中的物品放到購物車(chē)里時(shí),交易可能就已經(jīng)開(kāi)始了,當他在屏幕上確認完成了購買(mǎi)時(shí),交易也隨之結束。
也許你想收集的第一個(gè)可用性度量是任務(wù)是否成功完成。每個(gè)任務(wù)是成功了還是失敗了,這顯需要有一個(gè)明確的結束狀態(tài),例如確認交易達成說(shuō)明任務(wù)成功了。
報告參與者的交易成功率是評估交易總體有效性的一個(gè)好的的措施。如果交易涉及到某個(gè)網(wǎng)站,一些網(wǎng)站的在線(xiàn)度量,如交易的流失率,也是非常有用的。通過(guò)了解用戶(hù)量是在哪個(gè)環(huán)節流失的,這樣你就能夠把注意力集中在交易中問(wèn)題最嚴重的步驟上了。
計算問(wèn)題嚴重程度可以幫助聚焦與交易相關(guān)的特定可用性問(wèn)題的原因。通過(guò)為每個(gè)可用性問(wèn)題匹配不同的嚴重等級,你能夠專(zhuān)注于處理任何交易中出現的優(yōu)先級高的問(wèn)題。兩種類(lèi)型的自我報告式度量也很有用:返回的可能性和用戶(hù)期望值。在這些情況下,用戶(hù)可以選擇在哪里進(jìn)行交易,重要的是要知道什么他們的體驗如何。
最好的了解方法之一就是詢(xún)問(wèn)參與者是否會(huì )再次使用這款產(chǎn)品,該產(chǎn)品是否達到或超過(guò)了他們的預期。當用戶(hù)不得不多次重復完成同一交易的時(shí)候,那么效率就是一個(gè)合適的可用性度量。效率是通過(guò)單位時(shí)間的任務(wù)完成量來(lái)衡量的。
2.產(chǎn)品比較
知道你的產(chǎn)品與競爭對手或以前的版本相比差異在哪里是非常有用的。
通過(guò)對比,你可以準確把握產(chǎn)品的優(yōu)勢和劣勢所在,判別改進(jìn)后的版本是否真的比前一個(gè)版本有了提升。使用各種可用性度量是比較不同的產(chǎn)品或版本優(yōu)劣的最好方式。你選擇的度量方法應基于產(chǎn)品本身特征。一些產(chǎn)品的目的是最大限度地提高效率,而另一些則試圖創(chuàng )造極致的用戶(hù)體驗(這都是不同的)。
對于大多數類(lèi)型的產(chǎn)品來(lái)說(shuō),我們建議通過(guò)三類(lèi)可用性度量來(lái)對可用性建立一個(gè)整體意義上的認知。
首先,我們建議關(guān)注一些成功任務(wù)采用測量方法。能夠正確地完成一個(gè)任務(wù)對大多數產(chǎn)品而言是必不可少的要求。效率同樣需要著(zhù)重關(guān)注。效率包括任務(wù)完成的時(shí)間,頁(yè)面瀏覽數量(就一些網(wǎng)站而言),或操作步驟的數目。通過(guò)對效率的查看,你會(huì )對該使用產(chǎn)品用戶(hù)需要耗費多少努力有一個(gè)感性的認知。
一些自我報告的滿(mǎn)意度度量為用戶(hù)的整體體驗提供了一個(gè)很好的總結。滿(mǎn)意度測量最有意義的地方在于,它可以說(shuō)明用戶(hù)使用產(chǎn)品時(shí)在哪些地方會(huì )做出什么選擇。最后,比較產(chǎn)品間可用性最好的方法就是進(jìn)行整合和比較式的可用性度量。這讓我們從可用性的角度對不同的產(chǎn)品有一個(gè)清晰全面的了解。
3.對同一產(chǎn)品的使用頻率進(jìn)行評估
許多產(chǎn)品是基于使用頻率的多少來(lái)設計使用的。
例如微波爐,dvd播放器,Web應用程序等,它們都是作為工作的一部分來(lái)使用,甚至還有我們寫(xiě)這本書(shū)都要依靠的軟件程序。這些產(chǎn)品需要易于使用并且具有高效性??啼沝vd或用微波爐蹦爆米花所需的工作量被保持在最小限度。我們大多數人都不想浪費時(shí)間在很難用的產(chǎn)品上,而且也沒(méi)那個(gè)耐心。
我們建議的第一個(gè)可用性度量是任務(wù)持續時(shí)間。測量完成一系列的核心任務(wù)需要的時(shí)間將揭示任務(wù)所需要的工作量。對于大多數產(chǎn)品來(lái)說(shuō),完成任務(wù)所用時(shí)間越少越好。由于某些任務(wù)本質(zhì)上就比其他的任務(wù)更復雜,因此比較參與者與專(zhuān)家用戶(hù)的完成時(shí)間是很有用的。其他與效率相關(guān)的可用性度量,如操作步驟的數量或網(wǎng)頁(yè)頁(yè)面的數目(度量一些網(wǎng)站的情況)也是有用的。每一步的操作時(shí)間可能很短,但要完成一項任務(wù)需要作出的決策卻會(huì )很多。
易學(xué)性度量評估的是達到最大效率需要的時(shí)間和工作量。易學(xué)性也可以采取以前使用過(guò)的隨著(zhù)時(shí)間推移的效率度量的形式。在某些情況下,可以考慮自我報告式的可用性度量,如意識程度和實(shí)用性。通過(guò)測定用戶(hù)的意識程度和自我感知的有用性之間的區別,你就能確定,應該優(yōu)化或突出產(chǎn)品的哪些方面的特質(zhì)。
例如,用戶(hù)可能對產(chǎn)品的某些部分意識不到,但一旦他們使用它,就會(huì )發(fā)現這些部分是非常有用的。
4.評估導航和/或者信息架構
很多可用性研究著(zhù)眼于提高導航和/或者信息架構。這可能在網(wǎng)站、軟件程序或電子消費品中比較常見(jiàn)。
研究可能包括確保用戶(hù)可以快速和容易地找到他們想要的東西,很容易地在產(chǎn)品不同板塊間切換,知道他們自己處于哪一信息層級,有哪些選項可供選擇。通常情況下,這些研究涉及到線(xiàn)框的使用或部分功能的原型,因為導航和信息機制、信息架構的設計非常重要,幾乎是進(jìn)行任何其它設計的基礎所在。
評價(jià)導航最好的可用性度量之一是任務(wù)成功率。通過(guò)給參與者設定任務(wù),讓其找到關(guān)鍵信息(像是在玩“尋寶游戲”),你就可以了解導航和信息架構是否在任務(wù)中起到作用。搜索任務(wù)應該觸及產(chǎn)品的各個(gè)區域。用于評估導航和信息架構的一個(gè)效率度量就是迷失度,將參與者完成任務(wù)所需的步驟數(例如,Web頁(yè)的訪(fǎng)問(wèn)步驟)與相對完成任務(wù)最低步驟數相比。
卡片分類(lèi)是了解用戶(hù)對信息組織方式的一個(gè)特別有用的方法。有一種卡片分類(lèi)研究被稱(chēng)為封閉式分類(lèi),就是參與者將卡片歸類(lèi)到已經(jīng)預定義好的類(lèi)別之下。從封閉型卡片分類(lèi)研究中衍生的一個(gè)有用的可用性度量是:放置到正確的類(lèi)別項目下的卡片與卡片總數的百分比。這種可用性度量顯示了信息架構的直觀(guān)性所在。
5.提高認知
并不是每一個(gè)設計進(jìn)行可用性評估的目的都是讓產(chǎn)品使用起來(lái)更容易或更有效率。一些設計改良的目的是增加特定內容或功能的認知性。這種做法對在線(xiàn)廣告來(lái)說(shuō)是十分必要的,但這對于具有重要功能但沒(méi)有得到充分利用的產(chǎn)品來(lái)說(shuō)也是可用的??赡苡泻芏嘣驅е乱恍┕δ懿槐蛔⒁饣蚴褂?,這其中包括一些視覺(jué)、標簽、或放置位置方面的設計。
首先,我們建議監控有問(wèn)題元素的的交互次數。這也并非萬(wàn)無(wú)一失,因為參與者可能注意到了一些東西只是沒(méi)有點(diǎn)擊它或著(zhù)只是在某種程度上進(jìn)行了交互。相反,產(chǎn)生了交互,但是自己沒(méi)有注意到這種相反的現象也不會(huì )發(fā)生。因此,數據可以幫助確認認知度,但不能表明缺乏認知度。有時(shí)自我報告式的度量中關(guān)于參與者是否注意到或意識到一個(gè)特定的設計元素的數據也是有用的。
測定顯而易見(jiàn)性的方法是向參與者指出特定元素并詢(xún)問(wèn)他們在任務(wù)進(jìn)行的過(guò)程中是否注意到了這些元素。認知度度測量包括詢(xún)問(wèn)參與者在研究開(kāi)始前他們是否了解產(chǎn)品的某個(gè)功能。然而,目前還不清楚這些數據的可靠性如何。因為并不是每個(gè)人都有很好的記憶力,有些人試圖挽回面子,說(shuō)他們看見(jiàn)了,盡管事實(shí)并非如此。因此,我們不建議這是你唯一的評估方法,你應該搜集其他數據源來(lái)補充你的結果。
記憶是另一個(gè)有用的自我報告式的可用性度量。例如,你可以為參與者展示幾個(gè)不同的元素,實(shí)際上里面只有一個(gè)元素是他們之前看到的,然后讓他們選擇哪一個(gè)是他們在任務(wù)中見(jiàn)過(guò)的。如果他們注意到了這個(gè)元素,他們的記住的可能性要大于猜測。但如果您有可用的技術(shù),也許用來(lái)評估意識的最好的方式是測量行為和生理數據,如眼動(dòng)跟蹤數據。使用眼動(dòng)跟蹤技術(shù),你可以測定花費在尋找一個(gè)特定的元素上的平均時(shí)間,有多少比例的參與人員在看它,甚至是第一次注意到是花費的平均時(shí)間。
在評估網(wǎng)站時(shí)候,另一個(gè)要考慮的度量數據是在線(xiàn)的網(wǎng)站數據變化。觀(guān)察不同的設計中的流量模式變化,將幫助您確定其相對于認知之間的關(guān)系。在直播網(wǎng)站上替代設計的同步測試(A/B測試)是一個(gè)越來(lái)越普遍的方式,用來(lái)測量小的設計變更是如何影響用戶(hù)行為的方法。
6.發(fā)現問(wèn)題
發(fā)現問(wèn)題的目的是確定主要的可用性問(wèn)題。在某些情況下,您可能沒(méi)有任何先入為主的想法,不知道產(chǎn)品上哪個(gè)可用性問(wèn)題是最重要的,但是你想知道是哪里惹惱了用戶(hù)。這種方法往往是針對現有的,但還不曾經(jīng)過(guò)可用性測試的產(chǎn)品而言的。
發(fā)現問(wèn)題式的研究也可以用于周期性檢查用戶(hù)是如何使用產(chǎn)品,他們之間是如何進(jìn)行交互的。問(wèn)題發(fā)現式研究與其他類(lèi)型的可用性研究有所不同,因為它通常是開(kāi)放性的。
問(wèn)題發(fā)現式研究中的參與者可能會(huì )完成他們自己的任務(wù),而不是你所指定的具體的任務(wù)。盡可能保持真實(shí)性對于研究也是很重要的。這經(jīng)常涉及到用戶(hù)正在使用的產(chǎn)品和用戶(hù)通過(guò)自己的賬戶(hù)去完成一些只與他們自己相關(guān)的任務(wù)。它也可能包括對參與者使用產(chǎn)品時(shí)所處環(huán)境的評估,如在家中或工作場(chǎng)所。
因為他們可能正在完成不同的任務(wù),使用情景可能不同,因此對各個(gè)參與者進(jìn)行比較可能是一個(gè)挑戰?;趩?wèn)題的度量可能是最合適于問(wèn)題的發(fā)現。假設你捕獲了所有可用性問(wèn)題,那就很容易將這些數據轉換成頻率和類(lèi)型。例如,您可能發(fā)現40%的可用性問(wèn)題涉及到高級別的導航,20%的問(wèn)題與混淆的術(shù)語(yǔ)有關(guān)。
盡管每個(gè)參與者所遇到的具體問(wèn)題可能是不同的,你仍然可以概括到一個(gè)更高層次的問(wèn)題范疇中。檢查頻率和具體問(wèn)題的嚴重程度將揭示有多少重復的問(wèn)題正在被發(fā)現。這是一個(gè)一次性的事件還是屬于反復出現的問(wèn)題?通過(guò)編目所有問(wèn)題及其嚴重程度,你能夠得到一個(gè)快速優(yōu)化設計的列表出來(lái)。
7.關(guān)鍵產(chǎn)品的可用性最大化
雖然有些產(chǎn)品是力求易用和高效,如手機、洗衣機等產(chǎn)品,而有些產(chǎn)品時(shí)必須易于使用,且具有高效性,如電擊器,投票機,或者飛機上的緊急出口指示。關(guān)鍵產(chǎn)品與非關(guān)鍵產(chǎn)品的區別就在于,關(guān)鍵產(chǎn)品存在的全部理由就是為用戶(hù)完成一個(gè)非常重要的任務(wù)。沒(méi)有完成任務(wù)將會(huì )帶來(lái)十分嚴重的負面后果。
對于任何關(guān)鍵的產(chǎn)品來(lái)說(shuō)可用性測試是必不可少的。但只是在實(shí)驗室中進(jìn)行少量用戶(hù)測試還是不夠的?;谀繕说挠脩?hù)使用性能測量是很重要的。任何不能滿(mǎn)足其可用性目標的關(guān)鍵產(chǎn)品都需要進(jìn)行重新設計。由于這些數據要有相當的可信度,所以你可能需要邀請大量的用戶(hù)參與研究。一個(gè)很重要的可用性度量是用戶(hù)錯誤。這可能包括在執行特定任務(wù)時(shí)的錯誤或誤操作的次數。錯誤并不總是容易界定的,所以如何去定義錯誤需要特別關(guān)注的。最好是很明確的定義出什么是錯誤的,什么不是錯誤。
任務(wù)是否成功也是重要的評估依據。在這種情況下,我們建議使用一個(gè)二進(jìn)制的方法來(lái)處理。例如,對一個(gè)便攜式電擊器的最真實(shí)的可用性度量的目標就是有人能夠獨自成功地操作使用。
在某些情況下,你可能希望任務(wù)成功是通過(guò)不止一個(gè)度量來(lái)評估,你可能希望任務(wù)在一個(gè)特定的時(shí)間內無(wú)差錯地完成。其他與效率有關(guān)的可用性度量同樣有用。還是以電擊器為例,只是正確地使用它是一回事,能否在有限的時(shí)間內快速及時(shí)地完成又是另外一件事了。自我報告式的指標是相對于關(guān)鍵產(chǎn)品而言不那么重要。用戶(hù)自己想如何使用他們手中的產(chǎn)品并不重要,重要的是他們實(shí)際上真的使用成功了。
8.創(chuàng )造具有整體性的積極的用戶(hù)體驗
對于一些想努力創(chuàng )造杰出用戶(hù)體驗的產(chǎn)品來(lái)說(shuō),只具備可用性是遠遠不夠的。這些產(chǎn)品需要既能吸引用戶(hù),又能發(fā)人深省,而且具有娛樂(lè )性,甚至可以讓用戶(hù)稍微上點(diǎn)癮。
iPod和TiVo就是我腦海里能想到的兩種產(chǎn)品。這些產(chǎn)品,你和朋友即便是在一個(gè)聚會(huì )上談?wù)撍矡o(wú)傷大雅。這種產(chǎn)品的知名度通常以驚人的速度上升。盡管產(chǎn)品好的用戶(hù)體驗特征是非常主觀(guān)的,但他們仍然是可測量的。
雖然某些性能度量可能是有用的,但是真正重要的是用戶(hù)的想法,感覺(jué)以及如何來(lái)描述他或她的使用體驗。在某些方面,這與測量一個(gè)關(guān)鍵產(chǎn)品的可用性方法相比恰好相反。如果起初用戶(hù)使用地并不順利,這可能還不是產(chǎn)品的末日。真正重要的是有多少用戶(hù)在當天使用結束后的感覺(jué)是什么。當測量用戶(hù)的整體使用體驗的時(shí)候,自我報告式度量是必須考慮的。
滿(mǎn)意度也許是最常見(jiàn)的自我報告式度量了,但它可能并不是最好的一個(gè)。只是“滿(mǎn)意”通常是不夠的。我們使用的最有價(jià)值的自我報告式度量之一是用戶(hù)期望。最好的體驗是那些超出用戶(hù)期望的體驗。當參與者說(shuō)產(chǎn)品比他之前預想的更容易,更高效,更有趣時(shí),你就知道你做到了。
另一種自我報告式度量涉及到將來(lái)的使用。例如,您可能會(huì )問(wèn)這樣一些問(wèn)題:購買(mǎi)的偏好是什么,是否會(huì )推薦給朋友,或者以后還會(huì )不會(huì )用等問(wèn)題。另一個(gè)有趣的可用性度量涉及到用戶(hù)可能會(huì )有的潛意識反應。例如,如果你想確保你的產(chǎn)品是吸引人的,你可以觀(guān)察一下用戶(hù)的生理數據。瞳孔直徑的變化可以用來(lái)測量喚醒水平,或者如果你想盡可能多的消除應力,你可以測量心率和皮膚電導率變化。
9.評估微小改動(dòng)的影響
不是所有的設計改動(dòng)都會(huì )對用戶(hù)行為產(chǎn)生顯著(zhù)影響。
一些設計改動(dòng)是非常小的,對用戶(hù)行為影響也不是很明確。但是即使是微小的改動(dòng),只要具備足夠多的用戶(hù)量,同樣可以產(chǎn)生巨大的用戶(hù)群體影響。這種微小的改動(dòng)可能是視覺(jué)設計的不同方面,如字體和尺寸的選擇,元素位置變化,視覺(jué)對比度,顏色和圖像選擇等。非視覺(jué)元素,如內容或術(shù)語(yǔ)的細微的變化,也會(huì )對用戶(hù)體驗產(chǎn)生影響。
也許衡量微小的設計改動(dòng)影響的最好方式是通過(guò)網(wǎng)站A/B測試的實(shí)時(shí)在線(xiàn)度量。A/B測試涉及到原設計與替代設計的比較。對于網(wǎng)站來(lái)說(shuō),這種方法通常是轉移一部分網(wǎng)絡(luò )流量給替代設計,然后對比度量數據結果,例如將網(wǎng)站流量或產(chǎn)品購買(mǎi)量與原設計對比。一個(gè)擁有較大用戶(hù)量的在線(xiàn)可用性研究也可以是非常有用的。如果你不具備進(jìn)行A/B測試或在線(xiàn)研究所需的技術(shù)條件,我們建議你使用電子郵件和網(wǎng)上調查的方式,從盡可能有代表性的參與者那里得到反饋信息。
10.替代設計比較
最常見(jiàn)的可用性研究類(lèi)型之一,就是多個(gè)替代設計方案的比較。通常情況下,這些類(lèi)型的研究都發(fā)生在設計過(guò)程的早期,在任何一個(gè)設計得到充分優(yōu)化之前完成。
(我們通常稱(chēng)這些為“設計烘焙”)不同的設計團隊一起完成多功能的原型的設計,我們依據預定義的可用性度量來(lái)評估每一個(gè)設計。進(jìn)行這樣的研究有一個(gè)小技巧。因為設計方案往往是相似的,因此從一個(gè)到另一個(gè)設計之間用戶(hù)可能具有很高的學(xué)習效應。讓同一參與者在不同的設計里執行同樣的任務(wù),通常不會(huì )產(chǎn)生有價(jià)值的信息,即使是特意對設計方案和設計任務(wù)的順序進(jìn)行了平衡也無(wú)法抵消。
對這個(gè)問(wèn)題有兩種解決方案。你可以設定研究是在純粹的不同設計主體之間進(jìn)行,即讓每個(gè)參與者只使用一個(gè)設計。這能夠獲得一個(gè)免于干擾的數據集,但需要更多的參與者加入?;蛘呔褪?,你可以要求參與者使用一個(gè)主要設計來(lái)完成任務(wù)(平衡設計方案),然后顯示其他的設計方案,并詢(xún)問(wèn)他們的偏好。這樣你可以得到從每個(gè)參與者關(guān)于所有設計的反饋。
當比較很多設計方案時(shí),最合適的度量是基于問(wèn)題導向的度量。比較高、中、低三種問(wèn)題嚴重程度不同的設計方案將有助于揭示哪種或者哪些設計更有用。理想情況是,最終設計應該是整體問(wèn)題較少,且嚴重程度較高的問(wèn)題較少的設計。
任務(wù)成功率和任務(wù)完成時(shí)間的度量也是有用的,但由于樣本量通常較小,這些數據往往價(jià)值有限。兩種自我報告式的度量特別有用。一是要求每個(gè)參與者選擇他們最愿意在將來(lái)使用的設計原型(作為一個(gè)被迫選擇的比較)。同時(shí),要求每個(gè)參與者依據不同評價(jià)維度,如易用性和視覺(jué)吸引力等來(lái)進(jìn)行評估,也能夠幫助發(fā)現問(wèn)題。
聯(lián)系客服