测试产品用户体验的7个步骤

我们在评估产品时，通常会参考一些数据或用户调研得到反馈。那么有没有一个更加系统和客观的评估方法，能够帮助我们评估产品呢，比如：

1.定期追踪产品或服务的整体表现和进展

2.与早期版本、竞争对手、行业基准或利益相关者所决定的目标相比较

3.评估你用户体验设计工作的价值

本文介绍的评估体系能够帮助设计师综合评价产品的表现，或者帮助设计团队用可测量的方法记录设计项目的进度。这个评估体系通常是一整套的流程，而不是一次性的测试。

因此可以把它应用在一个设计周期的末尾或下一个周期之前。许多公司在连续发布产品新版本的同时也会反复收集对应的数据。

流程概述

在首次搭建评估体系的时候，我们需要用到7个步骤。一旦你完成了最初的体系制定，这套流程就能被反复应用在日后的产品更新中，所需的工作量也会大大减少。

一个完整的用户体验评估流程包含上图的这些步骤：

1.首先你要确定测量的是什么内容和指标
2.以及需要使用哪种研究方法来收集指标对应的数据；
3.收集你的初始指标数据
4.并重新设计产品
5.最后收集更新后的指标数据
6.对比和解析调查结果
7.计算投资回报率（ROI）

制定完这个初始流程之后，后续的产品迭代评估（假设评估环境保持不变）就可以从第四步（重新设计产品）开始。

第一步：选择要测量的内容

选择测量的内容，意思就是要筛选和确定产品中关键的指标，这些指标最好是能够反映你的用户体验质量。

评估环境

先确定你的评估环境，然后才能决定你要收集什么。你可以从以下几个方向考虑你的评估环境：

你要关注的产品和平台是什么？（网站、应用程序等）
你的目标用户群体是怎么样的？
你希望测量的特定任务或功能有哪些？

任务

找出用户在产品中需要完成的核心任务。如果你的公司没有现成的核心任务，你可以先开始汇总产品中的（高频）任务。然后对这些任务进行优先排序，并选出对用户而言最重要的5-10个功能。

下表列出了多种产品和对应的任务范例。这里面的每个产品只包含了一项任务，但在实际运用中，你往往会需要关注多项任务：

指标

现在你已经找到一系列的任务，你又该如何衡量它们呢？Google的HEART框架能指导你筛选出你可能需要收集和追踪的指标。下面是对HEART框架的改编列表

要评估参与度是否高，那么完成任务的时间应该很长（例如，在报纸网站上阅读文章的时间很长），而作为效率指标，完成任务的时间应该很短（例如，在电商网站上快速结账）。换句话说，同样的变量（比如更长的时间）可能是好的，也可能是坏的，这取决于你需要测量的维度是什么。

你需要筛选出长期有效的测量指标，因为在理想情况下，你需要在未来几年里反复收集这些测量指标。以2-4个指标为目标，关注用户体验的不同维度（例如，幸福感和参与度）。

我们根据前文的产品任务跟踪列表，列出了一些可能的指标：

对用户体验进行基准评估不仅仅只是追踪数据，也是展示工作价值的一种方法。当你选择与公司的业绩指标（KPI）相对应的指标时，这就直观得多了。例如，在以减少客服成本为KPI的银行业务中，你可以通过对比重新设计前后的客服呼叫数量，来证明重新设计之后的联系人更改界面有助于减少客服成本。

第二步：决定如何测量

在考虑收集指标数据的方法时，你必须考虑这些方法所需的时间、预算、所涉及的研究人员能力、以及研究工具。如果你没有正确的方法，就不要做这件事，因为糟糕的数据，比没有数据更糟糕。此外，不要制定一个成本太高而无法长期维持的测量计划（因为基准评估的核心就是一遍又一遍地测量）。

在计划新的评估活动之前，先看看你的公司有什么现有的数据是你想要测量的。充分了解这一环节，并将用户体验指标与更宏观的公司商业目标联系起来，这是很有价值的。当你从其他来源获取数据时，一定要知道为什么需要以及如何使用。

对于用户体验评估，有3种有效的测量方法：定量的可用性测试、系统数据分析和用户调研。

定量的可用性测试。参与者会被要求执行产品中最主要的任务，研究人员则负责记录用户在这些任务中的表现（例如任务完成时间，成功率，以及满意度等）。
系统数据分析。自动收集系统已有的使用数据（例如放弃率和功能采纳率）。
用户调研。由用户来回答问题，反馈他们的行为、背景或建议。常见的指标有：任务轻松度、满意度评分、净推荐值等。

理想情况下，你可以将调研（用户自己评价的指标）与行为、观察（定量可用性测试或分析）结合起来，进而得到一个全面的用户体验反馈。

在下面的表格中，我们根据前面提出的产品环境制定了一些对应的测量方法：

第三步：收集初始数据：建立基准线

现在，你已经确定了要收集哪些指标以及如何收集这些指标，接着就是确定这些指标的判断标准。也就是把初步收集回来的数据作为产品体验的基准。

不要着急——先做试验，收集初步的样本数据，然后做初步的分析，确保你的收集方法是正确的，看看这些数据是否能够回答你的问题。这种小规模的实验会让你更高效的修正方法，但可能会需要你放弃一些原始数据。但是，为了保证在日后更大范围的数据收集工作中得到可靠的结果，这一环节是值得做的。

在你收集第一组测量数据时，记得要考虑可能影响你数据的外部因素，并在允许的情况下对此进行规划。例如，假设你在设计一个电商网站，使用数据分析的方法来收集销售指标时，要小心和排除那些可能干扰指标的因素，如由于大范围的营销活动或大规模的经济影响而作出更改的设计。

一开始产品的单一测量指标本身可能没有什么意义，因为你手上没有什么数据可以进行横向比较。但这个时候你仍然可以与竞争对手、行业标杆或者利益相关者所制定的目标进行比较。

下面我们提供几个对比的思路：

你的竞品数据。假设在设计一个智能扬声器App，我们可以参考竞品的制定你的基准指标，然后再相应地从自己的产品系统中收集数据。需要注意的是，如果你不能访问竞品的系统数据，就不要将系统数据分析作为你的数据方法。
行业标杆。你可以参考与你的领域相关的外部统计信息。例如，如果你在设计一个酒店网站，你可能想要将你的净推荐值（NPS）与这个行业的平均NPS进行比较（酒店行业的NPS为13%）
说他们想要一个平均提交时间少于3分钟的潜在客户表单，那你就需要将你当前的表单性能与目标值相比较。

至于该如何对比和解析这些结果，请参考第六步的建议。

第四步：重新设计产品

设计迭代版本的详细过程不在本文的讨论范围之内，但它很重要：没有重新设计，你就无法比较产品的多个版本。在重新设计产品时，请牢记交互设计的10个可用启发式原则。

第五步：收集改版后的指标数据

在新设计发布后，再次收集数据衡量。这里没有严格规定要等多久才能重新测评新设计的用户体验。如果你在做的是追踪分析，持续测量会更有好处。然而，对于那些基于具体任务的数据收集，比如定量的可用性测试和调查，你需要确定收集数据所需的合适时间。

普遍的用户不喜欢变化，所以在测量之前，给他们一些时间来适应新设计的功能。时间的长短取决于用户访问你的产品的频率。对于每天使用的产品，2-3周的适应时间就足够了。对于一个用户每周只访问一次或两次的产品，最好在调查前留4-5周的适应时间。

考虑评估新设计适当时机的时候，记得再留意一下任何可能影响结果的潜在外部因素（参考第三步）。

第六步：分析调查结果

这个时候你已经收集了至少两套数据，是时候分析你的结果了。注意你不能用表面价值来衡量你的指标，因为你的研究样本可能远远小于你实际的用户总数。所以，你需要使用统计学方法，以确定数据中任何可见的差异是真实存在的，或是随机干扰造成的。

一般来说，解读基准指标的方式，与你的产品环境、以及你选择的指标高度相关。比如，开支报告App的任务时间与手机游戏的任务时间是不同的。接下来，我们将概述前面讨论过的测量环境，以及对研究结果的解读。

测量环境：添加和设置智能扬声器

假设我们已经结合了可用性测试和用户调研来收集任务时间、成功率和SEQ。下表是我们初始设计和重新设计的指标数据汇总：

结果表明：任务完成时间基本一致的情况下，成功率和SEQ平均值都提高了。假设我们已经排除了这两个指标在统计上的显著差异。那总的来说，在新设计中，用户更加满意，更容易成功完成任务。因此新设计的版本改进是有效的！

第七步：计算ROI（可选）

通过基准评估，你可以追踪你的设计绩效和展示你工作的价值。一种展示价值的思路是将用户体验指标与公司的商业目标联系起来，然后计算投资回报率（ROI）。计算的时候可以把体验指标对应到公司的KPI，如利润、成本、员工生产力或客户满意度等。设计师学习如何计算ROI是很有帮助的，这让你可以更有力地说明用户体验对产品的影响。

关于如何为设计项目计算ROI可以参考这篇文章：https://www.nngroup.com/articles/calculating-roi-design-projects/

展示基准评估的结果

最后，在分析完结果并与利益相关者分享你的收获时，你的目的是要通过这些数据来讲述一个故事。有些领导会喜欢看到定量的数字，但这并不意味着你不能将一些定性的研究数据与你的结果相结合，来帮助听众对你的用户产生共鸣。

此外，在向利益相关者介绍时，一定要记录下所有的假设和可能混淆的变量。虽然你可能不需要直接对这些内容进行解释，但你如果能在报告附录中加上这些内容，可以显示出你对产品环境的全面理解。同时，当你遇到任何与测量有效性相关的问题时，你可以很方便地引用这些内容。

结语

基准评估是一个很强大的工具，它可以把用户体验工作与整个公司的商业目标联系起来。这里再次总结一下整个流程：要进行基准评估，首先要关注产品中的重要任务或特性，并确定如何测量它们；接下来，选择一种合适的测量方法，允许你在有限的时间、预算和技能的情况下收集这些指标数据；收集你的第一套数据作为基准指标，重新设计产品，然后用同样的方法收集新的数据；最后，通过比较收集到的指标数据，使用产品和商业知识来解析你的结果。
希望你的数据（或者在下一个版本发布后）会变得更好，反之，你也会知道你应该把注意力放在后续版本的哪些方面了。

以上就是本次对体验设计评估体系搭建的经验总结拉，你认真看完了吗？

原文：https://www.nngroup.com/articles/product-ux-benchmarks/

- Posted in: Blog

- Tags: 体验度量

0 条评论，8,848 次阅读

发表评论取消回复

既然来了，说些什么？

My Secret Rainbow