商业设计做得久了,大家一定见过很多这样的理论和说法:“重要信息一定要放在左上角”;“文字14号最适合阅读”;“最适合阅读的行宽是60~75CPL(character per line)”等等。一直以来,这些理论从用户体验的学术圈流传到商业设计圈,商业设计师们大都口耳相传,一般很少,或基本没有机会去验证这些理论是否准确。
直到最近,阿里巴巴安全体验设计需要对一套业务系统的人机交互效能进行优化,而衡量这套系统效能的重要指标便是工作人员对信息的读取和综合判断速度。
那么既然提到了人类对信息的读取速度,首先我们想到的便是上述的那些理论。比如字体和字号,文字颜色和文字的背景颜色,字间距和行间距,以及文本宽度和布局等等是否会影响到阅读的速度。有些从一些文献中可以找到直接结论
比如:
根据以上论文,我们大致可以判断文字字体,字号和间距可能对阅读速度(或视觉搜索速度)的影响不大,而文本宽度和排列情况对于信息输入效率的影响则没有找到基于中文环境的明确结论。所以我们决定在优化系统效能的开始阶段,首先通过试验,确定文本宽度对阅读效能的影响情况。并通过后续一系列试验,逐渐沉淀出一套对人机交互系统工作效率定量测量的方法。在这篇文章中,主要目的是以这次试验为实例,分享一些我们现在使用的定量试验设计方法和分析思路。
1. 试验目标
确定在23英寸显示器,放缩倍数100%,1920*1080分辨率,中文环境下,100%全宽度文本,50%宽度文本,25%宽度文本对视觉搜索效率的影响情况。
2. 环节设计
(1)n位被试同时进行A,B,C三组测试;
(2)ABC三组测试每组20道试题,ABC具有不同的样式,分别对应100%,50%,25%的文本宽度。
ABC三组中的每道试题由红色文字的结论,和黑色文字的描述组成。被试需要根据黑色文字描述判断红色文字的结论是否与描述一致,如果一致,则选择‘对’选项,反之选择‘错’,之后点击提交按钮提交。
这些试题参考了小学五年级阅读理解,对于正常被试而言没有理解障碍,同时,红色的结论完全出现在黑色描述之中,用来辅助被试将阅读行为转化为视觉搜索行为。每组试验题目难度和文字长度基本相同,内容不重复。
(3)针对n位被试,ABC三组的试验打乱次序进行,防止顺序效应对试验结果造成的影响。也就是被试1,试验顺序ABC,被试2,试验顺序ACB…依次类推。
(4)试验除了统计视觉搜索速度相关的指标外,也希望对造成视觉搜索速度差异的因素进行观察,故部分试验组也会采集相应的眼动数据。采集和统计到的数据以下表进行记录:
被试 | 试验顺序 | A组完成任务时长 | B组完成任务时长 | C组完成任务时长 | A组正确率 | B组正确率 | C组正确率 | A组平均单任务注视时长 | B组平均单任务注视时长 | C组平均单任务注视时长 | A组平均单任务眼跳距离 | B组平均单任务眼跳距离 | C组平均单任务眼跳距离 |
样本数的确定目前在商业设计领域以经验数量为主,通常定量测试选择人数在15~40人之间。
本次试验希望摸索一种完全定量的模式,所以希望较为准确地对样本数进行估计。由于想定会使用对平均值的T检测进行ABC三组试验数据两两之间差异度的显著性分析,所以在试验前使用了G-power软件对试验样本数n进行了估计。
其中参数设定如下:
1.Test family=t test
2. Satistical test(统计方法)=Correlation:Point biserial model(点二列相关,这个目前不是很懂…)
3. Type of power analysis(统计功效分析类型)=Compute required sample size…(样本数n,置信度α,检测力power,效应量ρ,已知其中三个可以求另外一个,这里就是在求解样本数)
4. Tail(s)=Two(双尾T检测)
5. Effect size(ρ)=0.8(试验前一般可分别根据经验取值0.2,0.5,0.8,当预计两组间试验数据差异较大时,使用较大的数值,但不能超过1,在这里先凭经验取值0.8,后续可根据实际试验数据对ρ进行校正)
6. α= 0.05(置信度95%,也就是95%的情况下可以拒绝原假设h0,h0=两组数据无显著性差异)
7. Power=0.8 (经验取值检测力0.8,在后续试验中可以对这个参数进行修正,本次试验没有进行修正)
在上述参数设定下,Total sample size = 7,也就是需要7个人就可以得到置信度95%之下两组数据是否存在差异的结论,看起来这个样本数是偏小的,但不妨碍我们先开始试验。
首先,对七位同学进行了试验,每位同学都参加了ABC三组测试。
试验结果如下:
A组=全宽;B组=半宽;C组=1/4宽 | A组 | B组 | C组 | A组 | B组 | C组 | |
被试 | 试验顺序 | 完成任务时长 | 完成任务时长 | 完成任务时长 | 正确率 | 正确率 | 正确率 |
1 | BAC | 254 | 346 | 281 | 100% | 95% | 100% |
2 | CAB | 222 | 196 | 255 | 95% | 100% | 100% |
3 | ACB | 445 | 187 | 259 | 100% | 100% | 95% |
4 | ABC | 264 | 254 | 207 | 95% | 100% | 100% |
5 | BCA | 210 | 187 | 191 | 100% | 95% | 100% |
6 | CBA | 296 | 286 | 270 | 100% | 95% | 100% |
7 | ABC | 320 | 301 | 230 | 100% | 100% | 100% |
此时ABC三组完成任务的平均时间如下,单位为秒:
A组平均(全宽) | B组平均(1/2宽) | C组平均(1/4宽) | |
平均时长 | 287.3 | 251 | 241 |
从平均值看,三个试验组的平均值不同,全宽组用时最长,1/4宽度组最短。
但我们是否可以就此得出结论,和屏幕等宽的文本视觉搜索速度最慢,屏幕1/4宽度的文本视觉搜索速度最快呢?
显然是不可以的,因为平均值的差异有可能是由随机误差或系统性误差造成的,所以接下来我们用平均值的T检测对三组数据间两两之间是否存在显著性差异进行分析。
我们使用Excel内置的“t-检验:平均值的成对二样本分析”进行分析:
A-B组之间:
t-检验: 成对双样本均值分析 | ||
_ | 变量1 | 变量2 |
平均 | 287.2857143 | 251 |
方差 | 6317.571429 | 3996 |
观测值 | 7 | 7 |
泊松相关系数 | -0.094471522 | _ |
假设平均差 | 0 | _ |
df | 6 | _ |
t Stat | 0.904606056 | _ |
P(T<=t) 单尾 | 0.200268307 | _ |
t 单尾临界 | 1.943180281 | _ |
P(T<=t) 双尾 | 0.400536614 | _ |
t 双尾临界 | 2.446911851 | _ |
其中P单尾=0.2,P双尾=0.4,明显差异不显著(P双尾小于0.05时差异显著,P越小表示就越显著)。也就是A-B组之间的差异可能是由于随机误差,或系统性误差造成的。类似的,又进行了B-C组与A-C组差异性的检测,同样差异不显著(篇幅所限,数据就不展示了)。
但这很有可能是由于样本量过少造成的,因此,我们可以根据先导试验得出的标准差对样本数进行校正:
此时ABC三组平均值分别为:287,251,241,标准差分别为79,63,33,使用效应量计算器计算:
此时的Effect size(ρ)=0.24,相应的,计算得出的样本数为:
n=131,但这个样本数已经超出我们预期的成本(包括时间成本)太多了,因此虽然我们决定继续增加被试进行试验,但同时决定边试验边对数据进行显著性观测,如果依然没有很高的显著性出现,说明试验因素(也就是文本宽度)的效应量实在太小,在低样本数时不足以观测出显著结果,同时也说明这个因素实际上对视觉搜索的效率并没有太大影响。
将样本数n扩大至17人时(剔除一组异常数据后),结果如下:
_ | A组(全宽) | B组(1/2宽) | C组(1/4宽) |
BAC | 254 | 346 | 281 |
CAB | 222 | 196 | 255 |
ACB | 445 | 187 | 259 |
ABC | 264 | 254 | 207 |
BCA | 210 | 187 | 191 |
CBA | 296 | 286 | 270 |
ABC | 320 | 301 | 230 |
ACB | 212 | 165 | 179 |
BAC | 294 | 351 | 233 |
BCA | 185 | 272 | 222 |
CAB | 226 | 206 | 233 |
CBA | 311 | 286 | 415 |
ABC | 227 | 246 | 212 |
ACB | 354 | 274 | 333 |
BCA | 304 | 322 | 367 |
CAB | 302 | 247 | 321 |
CBA | 207 | 259 | 296 |
平均时长 | 272.5 | 257.9 | 264.9 |
A组所用平均时长依然最长,C组快于B组。再次对平均值进行两两T检验:
A-B组之间:
t-检验: 成对双样本均值分析 | ||
_ | 变量1 | 变量2 |
平均 | 272.529411 | 257.9411765 |
方差 | 4357.764706 | 3119.933824 |
观测值 | 17 | 17 |
泊松相关系数 | 0.166121167 | _ |
假设平均差 | 0 | _ |
df | 16 | _ |
t Stat | 0.760669098 | _ |
P(T<=t) 单尾 | 0.228959503 | _ |
t 单尾临界 | 1.745883676 | _ |
P(T<=t) 双尾 | 0.457919006 | _ |
t 双尾临界 | 2.119905299 | _ |
其中P单尾=0.22,P双尾=0.45,差异依然不显著。
此时对应的效应量已经小于0.2,对应的样本量n超过500+,也就是需要进行500人级别的试验才有可能出现显著性差异(或依然没有显著性,只能说明‘不显著’的结论置信度更高),说明文本宽度对于人类视觉搜索速度基本没有影响。对于业务而言,提高效率可能需要另想办法。
我们考虑被试在参与ABC三组混合试验时,有可能会因为顺序的原因产生阅读速度差异,于是我们又把A出现在第1,2,3次测试,B出现在第1,2,3次测试,C出现在第1,2,3次测试所用的时间分别进行了对比:
_ | A1 | B1 | C1 |
_ | 445 | 346 | 255 |
_ | 264 | 187 | 270 |
_ | 320 | 351 | 233 |
_ | 212 | 272 | 415 |
_ | 227 | 322 | 321 |
_ | 354 | 445 | 302 |
平均时长 | 303.6666667 | 320.5 | 299.3333333 |
t检测结果两两之间的差异均不显著。
_ | A2 | B2 | C2 |
_ | 254 | 254 | 259 |
_ | 222 | 286 | 191 |
_ | 294 | 301 | 179 |
_ | 226 | 286 | 222 |
_ | 564 | 246 | 333 |
_ | 302 | 259 | 367 |
平均时长 | 310.3333333 | 272 | 258.5 |
t检测结果两两之间的差异均不显著。
_ | A3 | B3 | C3 |
_ | 210 | 196 | 281 |
_ | 296 | 187 | 207 |
_ | 185 | 165 | 230 |
_ | 311 | 206 | 233 |
_ | 304 | 274 | 212 |
_ | 207 | 247 | 376 |
平均时长 | 252.1666667 | 212.5 | 256.5 |
t检测结果A-B组之间相对差异大一些,P单尾=0.07,P双尾=0.15,但依然不显著。
在当前能接受的样本范围内,对于一定字数(相对较少字数)的文本,文本宽度因素下,视觉搜索效率并没有显著性的差异。
想要通过优化文本宽度进而对界面使用效率进行优化的想法可实现性较低。
通过现场对被试的访谈,可以得出被试进行B,C组测试时体感较舒适,如果增加题目字数,加长试验时间,增加试验题目,结果可能有所不同。但个人认为,基于试验结果,文本宽度这个因素对于小字数文本的视觉搜索或者说阅读而言不是十分重要的因素,也可能说明人类对于此类因素的适应能力较强。
为此,在进行基于时间的定量测试之外,也对前几组被试进行了眼动仪试验,视图观察出文本宽度对被试视觉搜索模式的影响,以及这种模式是否是造成人类对于文本宽度具有较强适应能力的原因。
如前文所述,我们对每个被试,在ABC三组测试中,每组测试执行了20个任务。所以在眼动试验中,我们使用自研的用户体验分析工具DEEP EXPERIENCE将这20个任务经由眼动仪测定的眼动情况进行了叠加,以试图观察出被试在该种文本宽度下的视觉搜索模式。
在如下图所示的多任务眼动叠加视图中,上方的圆圈为多任务观察次序的叠加,其中紫色表示最先观察的位置,黄色表示最后观察的位置,圆圈的半径表示注视时长;下方的每一条条状图表示完成一个眼动任务的所有眼动动作,其中实心方块的长度表示注视(Fixation)时长,方块之间的连线长度则表示两次注视之间的眼跳(Saccade)时长(注意不是眼跳距离)。
某被试在测试组A(文本宽度为屏幕宽度)中的视觉搜索模式:
同一被试在测试组B(文本宽度为1/2屏幕宽度)中的视觉搜索模式:
同一被试在测试组C(文本宽度为1/4屏幕宽度)中的视觉搜索模式:
从图中可以看出,眼动仪试验可能部分解读了文本宽度对视觉搜索效率影响不大的原因。
尽管ABC三组之间的眼跳距离有所不同,但注视和眼跳所用的时间基本没有差别。
也就是当文本宽度加大时,眼跳距离虽然明显增加,但一般理论普遍认为的,在进行更长距离的眼跳之前的注视(Fixation)将花费更长准备时间的现象在试验中并不明显,反之,被试以更快的眼跳速度进行了扫读,最终造成所用的视觉搜索时间和其他几种文本宽度没有显著差异。
这可能说明,人类在进行限定的字数范围内的视觉搜索时具有较强的适应能力,搜索的效率对于文字的排列并不敏感。
交互系统效率一般来讲没有绝对的好与坏,通常需要进行对照试验。
在对照试验中,对于样本数的确定一般来讲是比较头疼的问题,除了适用经验被试数的情况之外,可以采用预试验的方法,通过对效应量的逐步修正进而确定适合的被试数,或者尽快中止没有显著结果的试验。
对于试验组之间的试验结果数据是否具有显著性差异,可以用方差检测或t检测进行验证,使用何种检验方式,在试验设计阶段就要加以考虑,样本数的确定也与使用的检验方式相关。
对于眼动测试而言,试验过程中的准备工作和试验结果的处理工作(Segment和Scene拆分)需要花费大量时间,在试验的一开始就要有充分的思想准备。
以上,就是我们在对交互系统进行量化试验中获得的一些经验,不论对于试验设计,还是过程中对变量的控制,还是统计学分析方法,都还处于起步阶段,有任何问题,希望读者多多指正。
原文:https://mp.weixin.qq.com/s/sDnJFlCYnqt8Ewlot53QCw
既然来了,说些什么?