敏捷度测试标准（系统可用性量表）

明天属于我 2023-03-23 07:51:50

本文是作者在做项目后的一点小结，将从what，when，why，how四个角度讨论用户研究中常用的SUS（系统可用性量表），对其他量表感兴趣的可以自行深入研究。

我们在做产品或系统的可用性测试后，都想把结果更好地传递给相关方。除了定性的研究结果之外，还有定量的可用性问卷，这些可用性问卷是标准化的，不仅可以科学地量化用户体验，也方便相关方之间有效沟通。常见的标准化可用性问卷有整体评估问卷、任务评估问卷和网站感知可用性评估问卷，如下所示：

1. 整体评估问卷

用于完成一系列任务场景后，对产品或系统整体的感知可用性测量。目前使用较广泛的有：QUIS（Questionnaire For User Interaction Satisfaction）、SUMI（Software Usability Measurement Inventory）、PSSUQ（Post-Study System Usability Questionnaire）、CSUQ（Computer System questionnaire）、SUS（System Usability Scale）。

2. 任务评估问卷

每完成一个场景任务，让用户对该任务进行感知可用性测量。目前使用较广泛的有：ASQ（After-Scenario Questionnaire）、SEQ（Single Ease Question）、SMEQ（Subjective Mental Effort Questionnaire）、ER（Expectation Ratings）、UME（Usability Magnitude Estimation）。

3. 网站感知可用性评估问卷

大部分标准化可用性问卷最初在20世纪80年代中期到后期被开发，在网络开始流行时，出现了更有针对性的评估网站感知可用性的问卷，目前广泛使用的有：WAMMI（Website Analysis and Measurement Inventory）、SUPRQ（Standardized Universal Percentile Rank Questionnaire）。

本文主要是自己做项目后的一点小结，将从what，when，why，how四个角度讨论用户研究中常用的SUS（系统可用性量表），对其他量表感兴趣的可以自行深入研究。
SUS是什么？

SUS最初是Brooke于1986年编制，量表由10个题目组成，包括奇数项的正面陈述和偶数项的反面陈述，要求参与者在使用系统或产品后对每个题目进行5点评分。

经过翻译，我们可以看到中文版如下：

注意：在使用SUS的过程中，可以对题目的词语进行替换，这些替换对最后的测量结果都没有影响。比如“system”可替换成网站、产品或者自己产品的名称等。
何时使用？
同一产品或系统，新旧迭代版本的对比。比如：某App首页改版后，新旧首页的对比。
同一产品或系统，不同终端之间的对比。比如：某产品的PC端、App端进行比较。
同类型竞品之间的比较。比如：苏宁，京东，当当三款App使用后进行比较。
为什么使用？
量表公开免费。
整个量表题目陈述简单，只需参与者打分，实施起来很快。
测量结果是介于0-100之间的分数，容易理解。
可测量多种用户界面，比如网页、手机、平板等。
多个实证研究表明SUS效果较佳。如Tullis等人研究表明，在样本量有限时，SUS可以最快达到效果（如下图）。也有大样本的研究（Bangor，2008）得出SUS的信度系数为0.91。

如何使用？
计分

当参与者做完一系列任务后，就可以快速对SUS进行打分。然后就需要对每个题目的分值进行转换，奇数项计分采用“原始得分-1”，偶数项计分采用“5-原始得分”。由于是5点量表，每个题目的得分范围记为0~4（最大值为40），而SUS的范围在0~100，故需要把所有项的转换分相加，最终再乘以2.5，即可获得SUS分数。

除了获得SUS量表总分之外，还可以获得分量表得分。SUS中，第4和第10项构成的子量表为“易学性”（Learnability），其他8项构成的子量表为“可用性”（Usability）。为了使易学性和可用性分数能够与整体SUS分数兼容，范围也是0~100，需要对原始分数进行转换：易学性量表转换分数的总和乘以12.5，可用性量表乘以3.125。

T

为了方便计分，我编制了一个SUS计分器。如果有需要，可在我个人微信公众号回复“SUS”获取。
解释

SUS分数反应的是总体可用性，当然，也包括两个分量表的特性。对于总体可用性，已有研究者（Bangor，2009）得出了文字、字母、可接受范围与SUS分数之间的关系，在图中可以直观地查看并解释SUS分数的意义。

除此之外，也可以将SUS分数换算成百分等级来解释，百分等级的意思是指测量的产品或系统相对于总数据库里其他产品或系统的可用性程度。比如SUS得分是73分，其百分等级大约为67，意味着比大约66%的产品可用性更好。

注意，这里的总数据库是Jeff Sauro（2011）通过446个研究，超过5000个用户的SUS反馈的数据库。如果从企业研究团队的角度来看，可以沉淀以往的研究，建立企业自己产品或系统的SUS数据库，从而获得自身的基准数据。当然，这个基准数据也有可能是内部团队制定。
最后

在使用SUS的过程中遇到了两个小问题：
10个题目中，个别题目对于参与者来说难以理解，比如第2题和第6题，这时需要和参与者进行解释。
最终的SUS分数并不是一个百分数，需要给受众解释清楚，当SUS分数为70时，其实是接近SUS总体的平均分，即对应的百分等级接近50，也就是说比大约一半的产品可用性更好。

对于第一个问题，我们需要灵活应变，在使用题目时注意措辞，避免歧义；对于第二个问题，需要查阅书籍文献（建议阅读文末的参考文献），这些理论的根源还是需要有充分的了解，否则就是半瓶子醋。

SUS最初的目的是快速而粗糙地测量可用性，现在已经被广泛使用。在定性研究的基础上，利用定量的结果来辅助会使研究结论更具有说服力，也是一种研究趋势。然而，在使用过程中，会遇到一些问题，作为研究人员，我们需要不断的在理论中思考实践，在实践中思考理论，以促进自身的成长。
,