AI必须被看见 – 态势可视化在安全智能系统上的尝试

序言：从一个新的论述开始

看到这个题目，大家一定会有这样的疑问，AI必须被看见和安全有什么关系？在这里要引入一个新的论述，那就是2019年IEEE VIS 安全分论坛上查尔斯欧曼博士（Dr. Chris Oehmen）在《Visualization in an Autonomic World: Establishing Trust, Maintaining Control, and Imparting Resilience》这篇论文中所提到的：“随着系统自主决策的增加，人类对可视化的需求越来越大。随着系统复杂性，互联性和自治性的增加，新的可视化形式对安全有效地操作和控制自动化系统来说必不可少。”

从这个论述中引出了两个问题：

1.什么是自主决策系统？

2.如何控制自主决策系统？

对于上面的两个问题，我们来看下面的视频（引用自《SimplePlanes 静不稳定飞控v2.0正式版演示视频》 By bili_2559497）：

这是一段使用simple planes模拟一架基于静不安定气动结构（也就是无动力，且翼面不动的情况下不可能保持稳定平飞）的飞机进行机动动作时的视频。我们可以看到，视频中的机翼发生了很多细小的振动，这些振动是由于气流，或者其他一些无意识的操作造成的吗？显然不是。所有这些细小的振动，都是把一个比如拉升，或者俯冲之类的大动作由AI分解为无数小动作，通过电控系统控制翼面所做出的，所以这是一个典型的自主决策系统。

那么第二个问题，如何控制自主决策系统呢？我们依然以飞机为例来看下图（引用自《BOEING 737 COCKPIT EVOLUTION》 by Mr Aviator）：

在这个例子中，我们可以看到波音737-100（左）到波音737-max（右）的座舱演化过程。这个演化过程最典型的特点就是座舱的玻璃化，也就是用液晶仪表取代了机电式指针仪表。而且并不是简单地把机电仪表照搬到了液晶显示器上，而是进行一些取舍和整合——比如基于地图展示的整体飞行态势信息。概括来说，飞控AI经历了由机械式向全时，全权限电传飞控的进化，与之相对的，观测和控制系统则由单参数的机电式指针仪表发展为态势综合显示系统。

也就是如下图所示的，从左边的，单纯只能显示数字的仪表进化为类似右侧的，能显示数字和关系的态势化仪表。这种仪表不仅能显示数字，还能揭示数字之间的关系。

这对于安全智能系统来说也是类似的。
下图左侧所展示的是由阿里巴巴研发的团圆系统推送的儿童走失信息。团圆系统是一个能够让更多人帮忙寻找走失儿童的一个基于Ai推送的公益系统。下图左侧部分展示了这个系统中全部4172条数据中的大约1/10，也就是400+条数据的截图。

事实证明，仅仅这个规模的数据，人类就已经无法把握全局。因此我们首先需要将抽象的数据具象化，也就是进行可视化，之后便可以得到上图右侧的可视化图表，它将左侧的数据进行了基础的可视化。但它是否能够反应当前系统的状态或者辅助决策者对未来的趋势进行预测呢？我认为不一定能，因为它所反映出的只是整个系统状态在某个时间点，或某个维度的截面，并不能完整地反映整个系统的情况。

因此便又引出了下面的两个问题：
第一个问题，如何衡量自主决策系统的工作效率和效果呢？答案是新的可视化形式。
同时第二个问题也就出现了，用什么样的新的可视化形式来解决问题一？
答案就是态势可视化。

这篇文章将从什么是态势可视化，态势可视化如何实施，和态势可视化的案例展示这三个维度对态势可视化这一设计模型进行阐释。

一. 可视化与态势可视化

如果最外圈是最广泛的可视化的范围，在其内侧，称为科学可视化。科学可视化，就是将客观实在先抽象为数据，然后再将数据具象化为图形的过程。

科学可视化的范围内便是数据可视化，尽管这和陈为教授的理论有所不同。数据可视化没有科学可视化将客观实在抽象为数据的过程，而直接将数据具象化为图形。

而在数据可视化的范围内，便是态势可视化。如何实现态势可视化呢？

二. 态势可视化落地的方法论

下图所展示的是可视化的层次。

从下往上依次是图表展示，关系链路，多端互动，多维度数据可视化。越是往上，在数据展示的维度上就越能展现高维度的数据，也就越能够展现系统发展的趋势，同时技术要求上也越来越高。

因此我们当前可以用多维数据可视化的手段，更好地去表现更高的数据维度和整个系统的趋势。

运用多维数据可视化，其目的就是对系统当前的状态进行评估，或对未来的状态进行预测。而实现多维数据可视化的过程，则是对数据和图形进行整合的设计，通过数据的驱动生成图形。

下图所示的就是通过观察，设计，实现来落地的多维数据可视化的整个实现过程。

其中最重要的是设计的步骤。

在获取原始数据，分析与挖掘需求之后，如下所展示的就是将源数据结构转化为设计数据结构的过程。

左侧所示的是原始数据，而右侧则是进行设计后的目标数据。数据的每一列可以称之为一个维度，可以看到原始数据的详情维度中含有大量信息，这些信息很难被计算机系统直接使用，而在右侧的设计数据中，将这个维度拆解成了走失地点，走失事件，找回时间三个维度。这个手段称为数据的结构化，与之类似的手段还有排序，去重等等，目的都是将原始数据转化为设计数据。

在设计数据的基础上，进行可视化形式的设计，这点在后面还会详述。在整个设计阶段结束后，进行落地和实现。落地的形式既包括与前后端和数据开发同学合作的传统形式，也包括了diy的形式。

比如下面的这个视频，这就是一种典型的无需编码的可视化diy工具nodebox，及使用nodebox，通过简单的节点拖拽，通过数据生成一个极坐标图形的过程。

接下来，我们从两个不同维度的例子来体会应用于安全智能系统的态势可视化案例，以及他可以为我们的业务带来什么。

第一个维度是社会维度，第二个维度是集团维度。

三. 态势可视化在不同维度的智能安全系统上的应用

1.社会维度的智能安全系统

大家应该还记得团圆系统的4172条数据，也还记得之前基于柱饼线的可视化形式。之前的结论是不论是观察数据本身还是基本的可视化形式，都无法有效率地让用户获得系统当前的状态和发展的趋势，为什么呢？因为很难高效地从观察原始数据本身，或经过基本的可视化操作的数据中获得如下的这些信息，比如：

什么时间走失的孩子多？什么时间找回的孩子多？为什么？
从总体上看，这种时间上的分布是否可能隐藏着某种模式？
系统能否进一步优化，使真正需要帮助的人更快得到帮助
从独立的个体看，因为走失原因不同，每个孩子分别经历多久才能被找到？
总体上看，每个走失的孩子经历多久才能被找到？

等等。

所以，为了让用户更高效地感知系统态势，基于经过设计的团圆数据，我们设计了跌落态势图这种通用型可视化图表。

从下图中可以看到一直向后延伸的曲线，那表征了孩子还没有被找到，而垂直向下的曲线则表示几乎在当天孩子就被找到了，这大多数时候表示孩子走失的原因可能是离家出走，而在横坐标所表示的时间维度上，我们还可以简单地看出不同类型的走失事件在时间上的分布情况。

而基于上面的跌落态势图，在2019年的国家安全周上，我们制作了一个可以进行交互的可视化装置。通过操作触摸屏，参展群众可以非常清晰地了解儿童走失事件在时间上的分布情况，以及走失的原因，从而在一定程度上直观地掌握走失事件的状态和趋势。

跌落态势图和桑基图等通用图表一样，也是一种通用型图表。作为通过图表，仅有一个案例是不够的。基于各省/市卫健委及其他公开数据，我们又尝试使用跌落态势图对新冠病毒的毒力与患者的病程和严重程度之间的关系进行了分析。

在数据部分，下图的左侧是原始数据，而右侧是使用openrefine进行了结构化，去重，排序等处理后的设计数据。

经由将源数据转化为设计数据的过程，基于设计数据，生成了patients tracking可视化看板。下图是看板进行交互操作时的状态，可以对分析的维度进行切换。

下图所示，其中左侧是接触-发病维度，右侧是发病-治愈维度。从接触-发病维度中，我们看到左上角有四名患者同时发病，这可能表征了一起聚集式传播事件。而在右侧的发病-治愈维度，分析截止到2020年2月18日发生的唯二两例死亡病例时我们可以看到，这两个病例都在早期感染病毒，而病程经历时间很长。这就可能说明了病毒毒力和病程拥有一定的关系。

为什么一直强调的是‘可能’存在关系呢。

因为我们对数据没有经过太多处理就直接搬上了屏幕。在后续还可以在数据处理的部分进行更多优化，比如：

1. 统计方面的优化：置信区间计算（x̅-Z_a/2* σ/√(n)，x̅+Z_a/2* σ/√(n)），根据置信区间排除异常值；根据统计学上的检测方法估算需要的样本量n，从而更加精确地对数据有效性进行判断。

2. 分析方面的优化：数据经过聚类等算法处理后再进行展示，这样或许可以避免因为数据过多造成的可读性差的问题。

2.集团维度的智能安全系统

比如应用于双十一期间，对交易风险进行防控的可视化系统。我们所面临的问题依然是数据量大以及维度众多。

在进行可视化设计之前，我们首先要考虑的实际上是将这么多维度呈现于一个图形上是和否会造成观众难以接受和理解呢？

从下图的认知负荷与认知绩效曲线图中可以看到，白色实线代表认知绩效，白色虚线代表注意力投入，蓝色区域代表可视化图形识别难度。我们可以看到在最左侧的简单区域里，因为图形过于简单导致认知绩效水平低（也就是获取不到太多有用信息）。而在红色范围内，认知绩效达到峰值，也实现了较好的可记忆性，可以说达到了认知和记忆的平衡，所以我们认为，可以通过增加一定程度的识别难度，来强化用户对图形的理解和记忆。

因此基于各种极坐标图形，我们进行了一系列的扩展，对双十一数据进行了多维可视化的设计。那么为什么是基于极坐标图形呢？因为它能够同时表现诸如对比，时间，并列，等多种关系，像南丁格尔玫瑰图，悲惨世界图等大家耳熟能详的可视化图形也都来自极坐标图形。

在下图的左侧，便是应用于2018年双十一大促的忒弥斯之眼。而右侧是应用于2019年双十一的日冕图。

在日冕图中，使用角度展示了数据的维度，通过角度和扇形面积的比例，凸显出哪一个维度是真正需要被关注和需要的重点维度。

在日冕图上每个被凸显出来的扇形中，圆心角越大，其对应的弦长越长。而扇形中所显示的各个指标的显示面积也会相应增加。这就给分析和指挥人员留下了更加深刻的印象。越需要被关注的信息，就越被凸显出来，越能吸引分析人员的注意力，也就越容易被分析人员快速地理解和记忆。

态势可视化模型

以上的这些案例，就是我们通过多维数据可视化的手段，使用户得以更容易地感知系统状态，并在一定程度上可以对系统发展的趋势进行预测，从而辅助用户制定，和执行决策。

态势可视化的模型如下所示，而多维数据可视化则是其中将设计思想和理论落地的重要环节：

在态势可视化的研究上我们才刚刚起步，希望有机会和同学们进一步交流。

原文：https://mp.weixin.qq.com/s/XV6QLa7PfxLDWsEbVzhlBQ

- Posted in: Blog

- Tags: AlibabaDesign , 可视化

0 条评论，4,260 次阅读

发表评论取消回复

既然来了，说些什么？

My Secret Rainbow