TCC 推荐:大家好,这里是 TCC 翻译情报局,我是张聿彤。可用性测试到底需要多少参与者?本文作者经常被问及。由五名参与者进行的可用性研究将发现超过 80% 的界面问题,他介绍得出该结论的依据,并且统计抽样方法也得出了相同结论。5-10 名参与者是一个合理的基线范围,应在每次研究之前进行评估,并附上了需要考虑的一些事项。
你需要测试超过 5 个用户吗?
我回来了!为沉默道歉。我刚从一场迷失中恢复过来,之前一个月都无法做太多事情。我的身体还未完全恢复,但可以复工和使用电脑了!欢呼!
所以人们经常问我:我们的可用性测试需要找多少个用户?
这个问题是用研人员和利益相关者间存在大量争论的根源。作为专业人士,我们的目标是可靠性与业务目标及其他影响因素(例如时间和预算)之间取得平衡。这意味着我们应识别出不同样本量测试中潜在的风险和影响,并为不同研究项目推荐最佳的小组人数规模……
通常,在不清楚可用性测试内如何及什么环节使用这些用户,用研人员就接受了关于可用性研究流行的人数建议。典型例子是尼尔森 (Nielsen) 的建议:“由五名参与者进行的可用性研究将发现超过 80% 的界面问题”。这个著名的建议基于维尔奇 (1992) 和尼尔森 (1993) 的研究。
根据麦斯菲尔德 (2009) 的说法,他们是这样得出这个结论的:“100 组 5 名用户参加发现界面问题。该研究的确发现,在所有 100 组中发现的问题的平均百分比约为 85%。然而,这个数字有 95 % 的置信水平和 ±18.5% 的误差范围。这意味着对于任何一个特定五人组,发现问题的百分比有 95% 的可能性在 66.5%-100% 的范围内。事实上,一些五人组确实(实际上)识别了所有问题; 然而,一个五人组只发现了 55% 的问题。”
最近,福克纳 (2003) 尝试使用统计抽样方法回答同样的问题。她发现,平均而言,尼尔森的预测是正确的。在 100 次模拟测试中测试 5 名用户,发现平均 85% 的可用性问题是在更大的群体中发现的。然而,当仔细查看数据时,由 5 名参与者组成的小组发现的可用性问题的范围从几乎 100% 到只有 55%(类似于早期的研究)。这对用研人员意味着什么?当我们只依赖 5 名用户时,我们冒着错过几乎一半可用性问题的风险。
回顾福克纳的结果,我们看到增加参与者的数量,可以解决问题并提高研究结果的可靠性。更具体地说,10 名参与者平均可以发现 95% 的问题(范围从82% 到 100% )。参与者增加到 15 名可以平均识别 97% 的问题(范围为 90% 到 100%)。
福克纳 (2003) 的表格显示了不同的参与者群体规模如何影响研究达到问题发现的水平
当然,招募超过 5 名用户并不总是可行的,而且我们不希望一次发现所有可用性问题!那么应该怎么做呢?
就像用户研究存在诸多方面,没有一种适合所有方面的方法我们可以采用!答案取决于许多因素,应在每次研究之前进行评估。需要考虑的一些因素如下:
根据麦斯菲尔德 (2009) 的评论,可以证明:“对于大多数发现问题的研究,3-20 名用户的小组规模是有效的,5-10 名参与者是一个合理的基线范围,并且小组规模应该随着研究的复杂性和背景的重要性而增加”。
注意:如果测试质量差,再多用户参与都无济于事……
研究表明,可用性测试的结果很大程度上取决于评估者(雅各布森和赫茨姆研究,2001)。例如,使用无效的测试任务或不正确地促进会话。可用性测试中的错误并不少见 —— 即使是有经验的研究人员也会犯错。
正如莫利奇 (2010) 建议的那样,如果我们使用糟糕的方法,无论参与群体的人数规模如何,研究的结果都会很糟糕…… 选择正确的方法并努力防止评估者的错误应该是首要事项。
原文:https://mp.weixin.qq.com/s/HWMfYfSWAM2LlmxcaU0lSg
既然来了,说些什么?