市场定义/说明
该魔力象限评估了数据科学和机器学习(DSML)平台的供应商。Gartner将DSML平台定义为核心产品和相干集成产品,组件,库和框架(包括专有,合作伙伴和开源)的支持产品组合。它的主要用户是数据科学专业人员。这些人员包括专家数据科学家,公民数据科学家,数据工程师和机器学习(ML)工程师/专家。
一致的集成意味着核心产品和支持产品组合提供一致的“外观”,并创建用户体验,其中所有组件都可以合理地互操作以支持分析渠道。
DSML平台提供了基本功能和高级功能的混合,这些功能对于构建DSML解决方案至关重要(主要是预测模型和规范模型)。该平台还支持将这些解决方案合并到业务流程,周围的基础架构,产品和应用程序中。它在数据和分析管道中的多个任务中支持各种技能的数据科学家,包括以下所有领域:
数据提取
资料准备
数据探索
特征工程
模型创建和培训
模型测试
部署方式
监控方式
保养
合作
并非所有组织都从头开始或完全自己构建DSML模型。有些人需要帮助来开始或扩展其DSML计划。尽管此“魔力象限”确实评估了某些预打包内容(例如模板和示例)的可用性,但并未评估可帮助在整个组织中启动或扩展DSML项目的服务提供商。此“魔力象限”也未评估针对行业,领域或功能的解决方案的专业供应商。
魔力象限的读者应了解以下内容:
这个市场具有众多供应商: Gartner邀请了许多DSML平台供应商参与评估过程,以将其潜在地包含在魔力象限中。这些平台的用户对用户界面(UI)和工具有不同的要求和偏好(请参阅 “如何选择正确的数据科学和机器学习平台”) )。专家数据科学家更喜欢对数据科学模型进行编码(通常使用Python或R),并且经常在笔记本中构建和运行数据模型。其他用户最喜欢通过使用拖放UI创建可视管道来构建模型。新兴的公民数据科学社区的许多成员都喜欢一种更加增强的方法(通常称为AutoML)。它使用人工智能/机器学习技术来指导和加速从业人员通过模型构建和运营过程(请参阅 “增强型机器学习正在使数据科学民主化” )。一些专家数据科学家更喜欢增强方法,该方法使他们能够更有效,更高效地导航模型构建和操作过程。
明确排除了主要针对应用程序开发人员和业务分析师的平台: 数年来,数据科学和传统分析空间一直在多个关键点发生冲突。此外,许多开发人员正在接受有关机器学习的教育,并将其纳入他们的应用程序和软件。角色和工具包之间的界线继续模糊。但是,在基于预期用户类型的市场空间之间仍然存在明显的区别。有关为这些支持者设计的平台和服务,请参阅 “面向云AI开发人员服务的魔力象限” (即将发布)和 “面向分析和BI商业智能平台的魔力象限”。
领导者可能不是最佳选择: 有许多可用的DSML产品,所有这些产品都提供了广度和深度的功能以及用于开发,操作和管理模型的各种方法。因此,在评估供应商时评估您的特定需求很重要。例如,“领导者”象限中的供应商可能不是您的最佳选择。同样,利基播放器可能是完美的选择。有关每个平台的功能的详细介绍,请参见(即将发布)随附的 “数据科学和机器学习平台的关键功能”。 请记住,此“魔力象限”仅包括提供各种DSML解决方案的众多供应商中的一小部分。
仅包括具有商业许可产品的供应商: 纯开放源代码平台不包含在此“魔力象限”中。仅包含商业许可的开源平台。但是,我们确实认识到利用开源组件和库的商业平台的成熟趋势。供应商采用不同的方法来包含和支持开源。开源解决方案为用户和供应商提供了一个机会,使他们只需很少的前期投资即可开始使用DSML(请参阅注1)。在开源社区中,创新是快节奏的,新技术的成功是高度民主的。此外,许多DSML平台用户已经精通或可以轻松学习和应用开源技术。开源技术在大学数据科学课程中也变得无处不在。通过与商业产品的协作或精心集成来利用开放源代码,也减少了供应商重新创建特定功能的需求。供应商可以融合快速变化的算法和技术领域中的最佳元素,从而留出更多资源来专注于其平台的其他差异化领域。但是,如果平台的供应商未考虑所有类型用户的需求,则其易用性和一致性可能会受到影响。
平台不仅必须支持模型构建,而且还必须支持模型可操作性: 除非同时具有以下两种模型,否则DSML的全部收益(包括业务价值)将无法实现:
嵌入业务流程和决策环境中
随着时间的推移进行维护,监控和管理
最近在技术,工艺和人才开发方面取得了许多进步。但是,出于全面部署的目的而开发的惊人比例的模型从未真正投入运营。造成这种情况的原因很多,但一个关键的原因是缺乏实现和促进运营的工具。运营(通常称为MLOps)扩展到对模型的持续审查和调整,以确保随着时间的推移,随着业务及其目标的变化,它们的相关性。MLOps还包括关键功能,例如漂移检测,目录,治理,可解释性和业务影响分析。
AI被夸大且不可避免: 所有DSML都可以归类为人工智能(AI),但并非所有AI概念都应称为DSML。尽管如此,DSML平台仍无法避免围绕AI的持续炒作。这些语义不太可能达成共识,因此不值得争夺。AI的炒作无疑给数据科学领域带来了宝贵的关注和热情。但是,如果没有教育,纪律和合理的期望,炒作的弊大于利。魔力象限中的供应商在宣传方面做得很好,同时清楚地交流和传递了价值,并使他们的平台与其他AI解决方案区分开来。
DSML平台的多样性很大程度上反映了使用它们的人群的广泛性。因此,此“魔力象限”针对的受众是:
专家数据科学家: 这些人是备受追捧的人,他们具备理解和参与数据科学生命周期各个阶段的技能和知识。大多数专家数据科学家将大部分时间和精力花费在模型创建上,并由诸如数据工程师和ML工程师等支持角色来承担数据管道和MLOps职责。终身专家可以担任数据科学经理的角色,可以使用平台来了解团队的全部项目组合,并促进协作和及时交付价值。一些专家数据科学家大多独立于“点”解决方案上工作,很少与组织中的其他数据科学家或部门进行过多合作。
公民数据科学家: 越来越多的公民数据科学家正在构建DSML模型。这些人需要访问DSML功能,但不具备专家数据科学家的高级技能。公民数据科学家可以来自业务分析师,业务线(LOB)分析师,数据工程师和应用程序开发人员等职位。他们需要了解DSML市场的性质以及它与分析和商业智能(BI)市场有何不同,但又相互补充(请参阅 “分析和商业智能平台的魔力象限” )。公民数据科学家不会代替专家数据科学家,而是与他们合作。
支持角色: 这些 角色 包括数据工程师,开发人员,机器学习工程师和其他角色。尽管不负责模型的建立,培训和测试,但数据科学团队的支持对扩展操作规模,确保数据质量和一致的模型准确性至关重要。
业务线(LOB)数据科学团队: 通常,它们是由其LOB执行官赞助的,负责解决LOB主导的营销,销售,财务和R&D等方面的计划。这些团队专注于自己和部门的优先事项。与其他LOB数据科学团队的协作级别有所不同。LOB数据科学团队可以包括专家和公民数据科学家。支持角色可以驻留在LOB中,也可以从IT或其他领域分配。
企业数据科学团队: 这些 团队 拥有强大而广泛的执行官赞助,并且可以从企业范围内的可见性角度采取跨职能的观点。除了支持模型构建外,他们还经常负责定义和支持用于构建和部署DSML模型的端到端流程。他们通常与多层组织中的LOB数据科学团队合作。此外,他们可能会为没有自己的数据科学家的LOB团队提供帮助。公司数据科学团队通常包括专家数据科学家。支持角色可以驻留在公司数据科学团队中,也可以从IT或其他领域分配。
魔力象限
图1. 数据科学和机器学习平台的魔力象限
资料来源:Gartner(2020年2月)
供应商添加和删除
随着市场的变化,我们将审查和调整魔术象限的纳入和排除标准。这些调整的结果是,任何魔力象限中的供应商组合都可能随时间变化。一个供应商出现在“魔力象限”中的一年而不是第二年并不一定表明我们已经改变了对该供应商的看法。这可能反映了市场的变化,因此也反映了评估标准的变化,或者反映了该供应商的关注点的变化。
纳入和排除标准
我们对该版《魔力象限》的纳入标准进行了一些更改。包含过程包括供应商满足收入阈值和识别参考客户的要求。堆栈排名流程评估了产品对DSML典型用例场景的支持程度:
业务探索: 这是探索未知并形成假设的经典场景,需要大量的数据准备,探索和可视化功能。该方案还可以包括合并增强功能以指导数据准备,可视化和分析的使用。
高级原型制作: 此场景描述了何时使用数据科学(尤其是新颖的ML技术)显着改善传统的分析方法。传统方法可能是使用人工判断,精确解决方案,历史悠久的启发式方法或遗留数据挖掘方法。高级原型利用以下某些或全部:
改进生产: 在这种情况下,组织已经实施了许多数据科学解决方案并将其交付到业务中,但是现在的重点转移到对现有模型进行改进,改进和更新。MLOps的活动和功能也主要属于生产改进用例,其中平台支持版本的发布激活,监视,性能跟踪,管理,重用,维护和治理。
增强型数据科学和机器学习: 此用例已从“非传统数据科学”重命名。在这种情况下,使用ML / AI来自动化和加速数据科学的关键方面,例如特征工程和模型选择,以及模型操作化,模型说明,模型调整和管理。这减少了对生成,操作和管理高级分析模型的专业技能的需求。它为公民数据科学家和(应用程序)开发人员打开了DSML内容创建的过程。高技能的数据科学家也可以提高生产力,并有更多时间专注于其他任务。
我们使用以下15个关键功能对四种用例场景中的供应商功能进行评分:
数据访问: 产品在多种类型的数据(如表格,图像,图形,日志,时间序列,音频和文本)中支持数据访问的程度如何?
数据准备: 产品是否具有大量非编码或编码数据准备功能?
数据探索和可视化: 该产品是否允许一系列探索性步骤,包括交互式可视化?
自动化和扩充: 该产品是否促进了特征生成,算法选择,超参数调整和其他关键数据科学任务的自动化?
用户界面(UI): 产品是否具有连贯的“外观”和直观的界面,理想情况下,该界面应支持可视化流水线组件或可视化构图框架(VCF)?
机器学习(ML): 与产品一起易于访问和运送(预包装)的ML方法,以及对诸如集成技术(增强,装袋和随机森林)和现代降维方案等现代ML方法的支持,范围有多大?
其他高级分析: 来自统计,优化,模拟以及文本和图像分析领域的其他方法如何集成到开发环境中?
灵活性,可扩展性和开放性: 如何将各种开放源代码库集成到平台中?用户如何创建自己的功能?该平台如何与笔记本一起使用?
性能和可伸缩性: 如何控制桌面,服务器和云部署?如何利用多核和多节点配置?
交付: 平台对创建API或容器(例如代码,预测模型标记语言[PMML],打包应用程序)的能力的支持程度如何,这些API或容器可用于更快地部署到各种业务场景中?
平台和项目管理: 平台提供什么管理功能(例如安全性,计算资源管理,治理,项目或实验组织,审核沿袭和可再现性)?
模型管理: 平台提供了哪些功能来监视和校准数百或数千个模型?这包括模型测试功能,例如K折交叉验证,训练验证-测试拆分,曲线下面积(AUC),接收器工作特性(ROC),损耗矩阵,以及并排测试模型(用于例如,冠军挑战者[A / B]测试)。
预设的解决方案: 平台是否提供“预设的”解决方案(例如交叉销售,社交网络分析,欺诈检测,推荐系统,购买倾向,故障预测和异常检测),可以通过图书馆,市场或画廊?
协作: 各种技能的用户如何在同一个工作流程和项目上一起工作?如何将项目归档,注释并在以后重用?
连贯性: 该平台支持整个数据分析管道的直观性,一致性和集成性如何?该平台本身必须提供元数据和集成功能,以具备前面的14种功能,并提供无缝的端到端体验,从而使数据科学家在整个数据分析管道中提高工作效率。这种元功能包括确保尽可能将数据输入/输出格式标准化,以使组件具有相似且一致的外观,并确保整个平台上的统一术语。
已审查和修改了与每个关键功能一致的子标准,以使子功能与适当的总体功能重新对齐,并反映了区分解决方案的新动态和关键子功能。
由于Gartner方法减少了供应商进行调查和访谈所需的客户推荐数量,因此降低了客户体验的权重。较低的权重反映出较小的样本量和减少的受访者人数。
如上所述,我们将“非传统数据科学”案例重命名为“增强数据科学和机器学习”。这与Gartner关于增强分析主题的其他研究保持一致,并解决了对非传统数据科学含义的困惑。
这四个用例的权重与去年的“魔力象限”中的权重相同。
为了符合此魔力象限的资格,每个供应商必须通过以下评估纳入标准。
包含标准1:数据科学和机器学习平台产品
供应商的DSML平台需要:
提供构建DSML解决方案必不可少的基本功能和高级功能(主要是预测模型和规范模型)
支持将这些解决方案整合到业务流程,周围的基础架构,产品和应用程序中
在数据和分析管道中为以下所有任务提供各种技能的数据科学家支持:
数据提取
资料准备
数据探索
特征工程
模型创建和培训
模型测试
部署方式
监控方式
保养
合作
供应商还需要能够直接和/或通过商业支持合作伙伴为其DSML平台提供技术支持。
纳入标准2:收入和付费客户数量
评估了三种常见的许可模式,并结合了每种许可产品的收入(和/或客户采用率)(如果适用),并针对以下每个核心产品,按照以下标准进行了评估:
永久许可模式: 2018日历年或会计年度的软件许可,维护和升级收入(不包括来自硬件和专业服务的收入)。
SaaS订阅模式: 2018日历年或会计年度的年度合同价值(ACV),不包括年度合同中包含的任何专业服务。对于多年期合同,仅使用前12个月的合同价值进行计算。
客户采用率: 使用供应商的DSML平台(不包括试用版)的活跃付费客户组织的数量。
每个供应商的核心产品都需要具备:
在2018日历年或财年中,永久许可证收入和ACV至少合计7500万美元, 或者
至少有1000万$结合在任一2018日历年的永久许可证收入和ACV或会计年度 和 当与紧邻的前一日历年度或财政年度相比,至少19%的合并收入增长 或
在2018日历年或财政年度 以及任何一个 财政年度中,永久许可证收入和ACV的总和至少为500万美元
只有具有通过此纳入标准的核心产品的供应商才被视为第三个纳入标准。
入围标准3:客户人数
接下来,根据所确定的参考客户对满足纳入标准1的要求的供应商进行评估。对于所考虑的每个核心产品,供应商必须表现出显着的跨行业和跨地域吸引力。计数仅包括使用核心产品的最新版本或2019年8月之前的12个月中发布的版本的活跃唯一客户组织。
跨行业参考客户
每个供应商必须使用生产中考虑的每个DSML平台来识别活跃的唯一客户组织。要考虑一个核心产品,需要10个独特的组织。这些必须在生产中具有数据科学解决方案,并且至少来自以下四个主要行业领域:
银行和证券
通讯,媒体和服务
教育
政府
卫生保健
保险
制造业和自然资源
零售
运输
实用工具
批发贸易
跨地区客户数
在每个供应商的参考客户中,在以下三个主要地理区域中的每个区域中至少必须有两个活跃的客户组织:
只有通过了包含标准2的供应商才晋升为包含标准3。
入围标准4:产品能力评分
然后,由Gartner分析师评估成功通过前三个标准的供应商,以评估其产品达到15种关键功能的程度。
由于可以包含在“魔力象限”中的供应商数量有限,因此只有具有最高16至18个关键能力得分的供应商产品才能继续进行详细评估。
如果捆绑了两个或三个供应商的产品,我们将每个都包括在内,从而使最大供应商数量达到18个。如果捆绑了三个以上的平台,我们将使用结合了互联网搜索,Gartner搜索和Gartner客户查询数据的指标确定哪些供应商的产品具有更大的市场吸引力,并以此为基础打破常规。魔力象限中绝不会出现超过18个供应商。
大约有70个供应商被考虑纳入。选择了十六个供应商以最终纳入。
排除标准
其DSML平台主要销售给应用程序开发商或业务分析师并由其使用的供应商不符合该魔力象限的纳入标准。
荣誉奖
以下列表列出了不符合纳入标准或由于缺乏信息而无法验证其纳入资格的著名供应商:
Amazon Web Services(AWS) 在AWS re:Invent上宣布 , 该产品向Amazon SageMaker(主要面向开发人员和数据科学家)提供了强大的支持ML产品和组件的产品组合(包括用于机器学习的集成开发环境Amazon SageMaker Studio)。在2019年12月)。
Cloudera, 它为数据科学团队提供Cloudera机器学习(下一代Cloudera数据科学工作台),以加速,管理和扩展ML工作流,并为企业IT提供保护和管理ML工作流的能力。
FICO 专门从事决策管理,特别适合团队为金融服务用例构建和运行ML模型。
Iguazio 的数据科学平台可帮助企业大规模,实时地开发,部署和管理AI应用程序。
Oracle 提供SQL,R和Python API,支持Oracle机器学习以及广泛的数据和分析产品套件,以支持数据准备,可视化,增强分析,模型开发和部署以及数据科学生命周期的其他阶段。
SAP 已对其DSML平台(SAP Data Intelligence)进行了升级,重点是企业就绪,数据管理和治理以及与SAP众多数据,分析和AI解决方案的集成。
Teradata的, 它提供了Teradata的华帝,有利于企业数据和使用户的统一视图,大规模进行预测和分析的规范,以及自主决策和机器学习。
世界编程公司(World Programming) 提供WPS Analytics,这是一个灵活的平台,它使用针对Python,R,SQL和SAS的可视化和编程工具来支持分析开发,治理和部署。
评价标准
执行能力
产品/服务: 在既定市场中竞争和/或服务于既定市场的核心商品和服务。该标准评估当前的产品和服务功能,质量,功能集,技能等。这些可以本地提供,也可以通过OEM协议和合作伙伴关系提供,如市场定义中所定义以及子标准中所详述。
总体生存能力(业务部门,财务,战略和组织): 此标准包括对组织总体财务状况以及业务部门财务和实际成功的评估。该标准还评估了组织继续提供和投资产品的可能性,以及产品在当前投资组合中的地位。
销售执行/定价: 此标准评估组织在所有售前活动中的能力以及支持这些活动的结构。其中包括交易管理,定价和谈判,售前支持以及销售渠道的整体有效性。
市场响应能力和往绩记录: 此标准评估供应商响应机会,改变竞争者行动,客户需求发展以及市场动态变化时的响应能力,改变方向,保持灵活性并取得竞争成功。它还考虑了供应商对不断变化的市场需求做出响应的历史。
营销执行: 此标准评估旨在传达组织信息以影响市场,提升品牌,提高产品知名度并在客户心中树立积极形象的计划的清晰度,质量,创造力和功效。可以通过宣传,促销,思想领导,社交媒体,推荐和销售活动的组合来推动这种“思想分享”。
客户体验: 此标准评估使客户能够通过评估的产品获得预期结果的产品,服务和/或程序。具体来说,它考虑了供应商与买方互动的质量,技术支持和客户支持。除此之外,还可以评估辅助工具,客户支持计划,用户组和SLA的可用性。
运营: 此标准评估组织实现目标和履行承诺的能力。考虑的因素包括组织结构,技能,经验,程序,系统和其他工具的质量,这些质量使组织能够有效地运作。
表1 :执行评估标准的能力
放大表
评价标准
权重
产品或服务
高
总体生存能力
中
销售执行/定价
低
市场响应度/记录
中
营销执行
低
客户体验
中
运作方式
中
资料来源:Gartner(2020年2月)
愿景的完整性
市场了解: 此标准评估供应商了解客户需求并使用该了解来创建产品和服务的能力。拥有清晰的市场愿景,倾听并理解客户需求的供应商可以塑造或增强市场变化。
营销策略: 此标准寻求清晰,有区别的消息,这些消息在内部进行持续沟通,并通过社交媒体,广告,客户计划和定位声明进行外部化。
销售策略: 此标准寻找使用适当网络(包括直接和间接销售,营销,服务和通信网络)的合理 销售策略 。它还考虑了可以扩展供应商市场范围,专业知识,技术,服务和客户群的范围和深度的合作伙伴。
提供(产品)策略: 此标准寻找产品开发和交付的方法,该方法强调市场差异,功能,方法和功能,以适应当前和未来的需求。
创新: 此标准寻找直接,相关,互补和协同的资源,专业知识或资本布局,以进行投资,合并,防御或抢先用途。
表2 :视觉评估标准的完整性
放大表
评价标准
权重
市场了解
中
市场策略
低
销售策略
低
提供(产品)策略
高
商业模式
没有评分
纵向/产业战略
没有评分
革新
高
地理策略
没有评分
资料来源:Gartner(2020年2月)
象限说明
领导者
领导者在DSML市场上拥有强大的影响力并拥有重要的思想份额。他们展示了在整个数据探索,模型开发和运营过程中的深度和广度。在提供出色的服务和支持的同时,领导者也要敏捷地应对快速变化的市场状况。使用Leaders平台的专家和公民数据科学家的数量在不断增加。
领导者最有能力影响市场的增长和方向。他们解决了大多数行业,地区,数据域和用例的问题,因此对这个市场有扎实的了解和策略。他们不仅可以根据当前的市场状况专注于有效执行,而且还具有坚实的路线图,可以利用这个快速变化的行业中的新发展和先进技术。他们提供思想领导力和创新差异化,通常会在此过程中破坏市场。
领导者是适合大多数组织评估的合适供应商。但是,他们不应成为唯一经过评估的供应商,因为其他供应商可能会更精确地满足组织的独特需求。领导者提供了高标准的基准,应与他人进行比较。
挑战者
挑战者已经建立了存在感,信誉,生存能力和强大的产品能力。但是,他们可能无法表现出与领导者同等的思想领导力和创新能力。
挑战者有两种主要类型:
悠久的DSML供应商因其稳定性,可预测性和长期的客户关系而成功。这些供应商需要振兴他们的愿景,以与市场发展保持同步,并具有更广泛的影响力和创新能力。如果他们只是继续做自己一直在做的事情,他们的成长和市场地位可能会受到损害。
在相邻市场中建立的供应商(例如,分析和BI,数据和分析服务提供商以及开发人员工具市场)正在通过扩展其当前平台的解决方案进入DSML市场。这些供应商不仅为现有客户而且为新客户提供合理的选择。这些供应商证明他们可以影响这个市场并提供清晰的方向和愿景,因此他们有可能成为领导者。但是他们必须避免诱惑,要从表面上快速引入新功能。
挑战者处于成功的位置,可以成功定义当前市场并在当前市场条件下有效运营。但是,他们的远见和路线图可能会因缺乏市场了解,过多地关注短期收益,与策略和产品相关的惯性以及缺乏创新而受到损害。同样,他们的营销努力,地域影响力和知名度可能无法与领导者相提并论。
有远见的人
有远见的人通常是规模较小的供应商或较新的参与者,它们代表着正在塑造或有可能塑造市场的趋势。但是,可能会担心这些供应商保持有效执行并随其增长而扩展的能力。他们通常在这个市场上并不知名,因此通常没有挑战者和领导者的势头。
有远见的人不仅有远见,而且有坚实的支持路线图。他们在满足市场需求方面具有创新性。尽管他们提供的产品通常具有创新性,并且在其提供的功能方面很扎实,但是这些产品的完整性和广度通常存在差距。
有远见的人值得考虑,因为他们可能:
然而,有远见的人也对买家构成了潜在的风险更大的选择。在当今竞争激烈的DSML市场中,有远见者也可能难以获得动力,发展业务,增加市场份额,实现远见并执行其路线图。它们也可能是收购的目标。
随着有远见的人成熟并证明其执行能力,他们最终可能成为领导者。
利基玩家
利基市场参与者展示出在特定行业或方法中的实力,或与特定技术堆栈完美结合。买方应考虑其特定细分市场。
一些利基市场参与者表现出一定的远见,这意味着他们可以成为有远见的人。但是,相对于市场上的其他公司,他们通常都在努力使自己的愿景引人注目。在驱动和定义市场方面,他们被认为是追随者,而不是领导者。他们可能还难以建立创新和思想领导力的历史记录,这可能会使他们有动力成为有远见的人。
如果其他利基市场参与者能够继续执行,从而提高其在市场上的势头和吸引力,则可能会成为挑战者。
语境
同时,DSML市场比以往任何时候都更加活跃和混乱。供应商将迅速发展的专有解决方案与众多开源组件和日益复杂的合作伙伴网络编织在一起。数据和分析领导者力求满足要求尖端功能的专家数据科学家,雄心勃勃的公民数据科学家,寻求快速且可访问的模型构建者以及应对ML工程巨大挑战的开发者。这个市场的运动是迅速的和多方向的。快照很快就会过时。
曾经沉睡的Google和AWS巨头现在在整个领域中醒来并打雷(尽管Amazon SageMaker被排除在此魔力象限之外,因为它主要在评估时出售给应用程序开发人员并由其使用)。IBM和SAS的传统空间力量正在通过现代产品和自适应策略进入新的十年。许多中小型供应商处于持续高速增长时期。在该领域中其他长期受人尊敬的品牌展示了令人兴奋的创新和健康的财务状况。
与去年的“魔力象限”一样,供应商高度关注创新和差异化,而不是纯粹的执行力。创新仍然是生存和相关性的关键。即使有大量成熟且思想领先的供应商,也涌现出无数具有多样化产品和价值主张的DSML初创公司。该魔力象限中的精选组已经建立了强大的客户基础,财务业绩和技术。尽管如此,新一代的供应商仍在努力争取知名度,相关性以及也许有一天会占据重要的市场份额。考虑到这个市场的竞争和充满活力的性质,可能已经竞争在象限左侧放置的供应商很难闯入。
在这个市场上的并购活动一直是定期的,但规模不大。魔力象限中的供应商可能会继续收购有趣的公司来完善其平台,而转型性的重大收购(与Salesforce在2019年收购Tableau相同)始终是可能的。
数据和分析领导者需要努力工作以跟上这个市场。最终用户组织需要增加参与度,以保持合理的最新状态。领导者应专注于开发DSML的新用例和应用程序-这些用例和应用程序应高度可见,可以提供真实的业务价值并为未来的计划提供动力。此外,他们应寻求将市场技术的访问权限扩展到非传统角色,并制定重要的内部教育计划。
无论最终用户组织是刚刚开始使用预测性和规范性分析,还是在高级分析中具有成熟的功能,它们都必须监视市场的变化。这包括供应商如何开发产品并为不同类型的用户和扩展用例提供新功能。企业应首先确定自身产品组合中的差距,并根据其业务需求监控供应商的产品。他们应该首先评估其现有的分析供应商是否正在应对新的挑战。他们不仅应该考虑DSML供应商,还应该考虑分析和BI供应商,它们正在不断扩展其功能以执行更高级的分析。随着DSML功能在企业中越来越多地被采用,跨部门工作对于避免过度分散和缺乏通用标准很重要。否则,各个部门可能会采用不同的平台和流程,从而导致运营和维护相关问题。
为了获得完全成熟的高级分析功能,组织必须计划并投资端到端数据科学生命周期。生命周期包括访问和转换数据,进行分析和建立分析模型,操作和嵌入模型,随时间推移管理和监视模型以重新评估其相关性以及调整模型以反映数据和业务环境变化的过程。
无论是开始还是扩展DSML领域的旅程,组织都不必独自旅行。数据和分析服务提供商提供指导,结构化方法并降低故障风险。服务提供商还帮助缓解数据科学人才招聘和保留方面的常见挑战(请参阅 “数据和分析服务提供商的市场指南” )。
市场概况
DSML市场超越了健康而激动人心的创新。众多供应商提供了广泛的功能,并提供适合大多数成熟度级别的解决方案。数据科学和数据科学家的定义和参数不断发展,其空间与2014年“魔力象限”的诞生有很大不同。
现在,许多供应商都希望借助其平台达到最佳效果,以同时吸引专家数据科学家和公民数据科学家,并使他们高兴。随着数据科学生命周期中支持人员的参与越来越普遍,供应商正在添加更多为数据工程师,开发人员和ML工程师设计的功能。以前只适合专家数据科学家的供应商正在添加增强的功能和改进的界面,以吸引公民数据科学家。供应商希望扩大其解决方案的覆盖范围和可用性,以最大程度地提高客户的平台投资回报率。
许多供应商将其定位在“视觉完整性”轴的右侧,这表明仍有大量令人信服的创新和富有远见的路线图。尽管供应商的愿景和价值主张的许多要素重叠,但差异化的关键领域仍在不断涌现。这些包括用户界面,增强的DSML(autoML),MLOps,性能和可伸缩性以及尖端的用例和技术(例如,深度学习,大规模IoT,增强学习)。
许多组织正在使用免费或低成本的开源和公共云服务提供商产品来启动DSML计划,以积累知识并探索可能性。然后,他们可能会采用商业软件来解决更广泛的用例和团队协作的要求,并使模型的部署和管理投入运营。尽管使用纯开放源代码堆栈实现企业数据科学成功是可能的,但绝大多数成熟而有影响力的数据科学团队已在商业平台上进行了投资。
DSML平台软件的总收入在2018年增长了19%(高于2017年的17%),代表了分析和BI软件市场第二快的细分市场(仅次于现代BI平台)。该部门2018年的收入为32亿美元(高于2017年的26亿美元)。它在整体分析和BI市场中的份额从2017年的14.1%增长到2018年的15.1%。该领域的一些较小和较年轻的供应商现在正在维持高速增长。与这个魔力象限中的许多供应商相比,以市场速度增长实际上是一个缓慢的增长速度。对这个市场感兴趣的人应该监视并定期评估以下发展:
DSML平台的用户组合越来越多样化。专家数据科学家仍然是主要用户,但公民数据科学家已接近代表更大的需求来源和潜在收入。没有标准的公民数据科学家。角色不仅包括业务和BI分析师,而且还包括来自传统数据空间的人员,例如数据分析师和数据工程师,以及应用程序开发人员和应用程序工程师。随着越来越多的用户(以不同的角色)采用DSML平台,协作和共享的能力比以往任何时候都更为重要。
分析和BI平台空间以及DSML平台空间都继续碰撞并相互影响。分析和BI领域中越来越多的供应商通常通过增强的供应商提供预测和规范功能。就其本身而言,数据科学供应商正在为其平台添加更强大的数据转换和数据可视化功能,同时使他们的环境对没有传统数据科学背景的个人更加友好。
尽管新的供应商正在进入市场,但“传统”供应商却具有很高的相关性。DSML领域中的许多传统供应商已经牢固地建立了新产品,或者正在对其方法进行改造和现代化,或者通过战略合作伙伴关系,合并或收购来扩大规模。知名人士继续提供新的功能和方法。同时,它们使现有客户能够继续从他们已经进行的投资以及他们惯常使用的技术堆栈中受益。
开源生态系统和社区一如既往地充满活力。Python已牢固地确立为DSML中的主导语言,R社区也在不断发展。开源软件使组织只需很少的前期投资或额外投资即可启动或扩展DSML计划。此外,该生态系统对在DSML市场中额外提供商业平台的供应商开放并受其支持。
算法构建块通常用于创建模型。随着针对特定领域和行业问题继续对模型进行抽象和打包,这种趋势将继续。
打包模型通过可轻松与应用程序集成并在应用程序中使用的API越来越多地提供(请参阅 “ Cloud AI开发人员服务的魔力象限” )。许多云服务API高度关注特定领域和行业问题。这种方法可以减少甚至消除组织自己构建模型的需求。
数据科学团队在开发模型方面比在操作模型方面变得更好。结果,往往无法衡量或实现业务价值。数据科学平台中的MLOps功能不仅限于部署,还包括生产中模型的持续管理和维护。尽管开发了许多模型,但很少有模型可以以不仅导致部署而且导致进行中的管理和维护的方式进行操作。此外,随着业务条件的变化,没有正确管理和监视的模型可能会变得不相关或不准确。
在可预见的未来,DSML市场的变革和创新步伐将继续加快。
在过去的一年中,DSML平台产品的几种趋势得到了发展。现代平台包含或容纳以下内容:
组件化: 当供应商开发自己的组件,使用开源软件或与其他供应商合作以扩展其产品时,由多个组件组成的平台已成为常态。与单个产品内的本机集成相反,供应商越来越多地提供了各种各样的工具。DSML平台的定义已在今年进行了重大更新,以反映这一现实。
开源验收: 尽管程度不同,但所有DSML平台都使用并结合了开源软件。一些提供用于访问常见开源库的API。有些将开放源代码技术构建为可在其自己的平台中访问的功能。其他功能包括使用开源生态系统中平台内创建的分析工件的能力。还有一些提供了更多的包装器,可以在一个一致的环境中与开放源代码工具进行本地工作,这也可以实现操作性。通过各种协作和精心设计的方法来支持开源平台和框架已成为标准。这些自适应平台增加了对新功能的支持并增加了工作量,同时减少了用户针对不同环境切换平台的需求。
多种用户类型: 数据科学的有机发展要求工具能够满足具有不同技能和不同DSML知识水平的用户的需求。某些平台仍主要是针对特定用户类型(通常是专家数据科学家)设计的。但是,使范围广泛的用户(从公民数据科学家到专家数据科学家再到应用程序开发人员)的组件或功能正在越来越普遍。
平台一致性: 组件化程度的提高和开放源代码的合并增加了零散,笨拙的解决方案的潜力。访问完整的,强大的功能的多个组件和平台的需求必须与以无缝和一致的方式访问所有功能的需求相平衡。随着产品拥抱异构环境,凝聚力变得越来越重要。随着产品的扩展以提供更多功能并与新兴技术保持同步,至关重要的是,它们不仅要支持管理多个组件的能力,而且还必须要能够从平台内轻松无缝地访问它们。
MLOps: 运营能力不仅可以部署,还可以随着时间的推移管理和维护模型。随着业务需求,优先级和条件的变化,MLOps功能对于鼓励随着时间的推移不断重新评估分析的相关性和有效性至关重要。随着DSML脱离实验室并进入主流,必须通过无缝集成以及经过精心设计的体系结构和流程来进行操作。MLOps功能还应包括可解释性,模型版本控制和业务影响分析等。
模型和数据存储库: 趋势是提供一种跟踪和共享数据以及模型开发和部署过程中生成的分析工件的方法。这对于重复数据删除,治理和企业数据科学计划的可伸缩性至关重要。它还支持正在使用的分析资产的持续更新,并为数据科学操作提供至关重要的透明度。
协作: 随着对DSML平台的访问变得民主化,并且在分析管道中越来越多的用户一起工作,能够轻松无缝地进行协作的需求显着增加。随着平台对新型用户的可用性越来越强,这些产品必须使人们能够一起工作并在整个数据科学生命周期中进行实时共享。DSML平台还促进了数据科学团队与IT之间以及数据科学家与业务线负责人之间至关重要的协作。
扩展到决策管理: DSML平台越来越超出可操作性以支持协作,随着分析工具超越了预测以明确地驱动业务决策,这又激发了人们对决策管理功能的兴趣。
证据
Gartner在此“魔力象限”中所作的评估和评论来自以下方面:
所选供应商的说明手册和文档。我们使用这些来验证平台功能。
从2019年9月到2019年10月对供应商的参考客户进行了在线调查。该调查针对参考客户在供应商的平台上的使用情况进行了175次答复。从供应商提供的信息中得出的调查参与者列表。
有关各个供应商的策略和运营的供应商简介,包括产品演示。
准备的视频演示了供应商的DSML平台如何在15种关键功能中满足特定功能要求。
Gartner分析师与Gartner客户之间的互动决定了他们的评估标准,以及Gartner客户对供应商如何成功满足这些标准的看法。
注1 开源平台的定义
在整个DSML平台市场上,开源方法正变得越来越普遍。它使人们能够进行协作式创新,每个人以缩短上市时间的方式贡献自己的观点。
开源方法正迅速成为引入新功能的主流方法。此魔力象限中评估了许多此类功能。
DSML平台市场中最常见的开源示例是组件。
开源组件包括:
开源编程语言,例如Python和R
开源库和框架,例如scikit-learn和TensorFlow
开源可视化文件,例如D3和Plotly
开源笔记本,例如Jupyter和Zeppelin
开源数据管理平台,例如Apache Spark和Hadoop
如果平台提供了访问开源组件的灵活性和可扩展性,那么该平台将被视为开放平台,而不是开放源代码。另外,平台本身可以是开源的,这意味着可以使用或修改其源代码。
开源软件通常是作为公共协作开发的,可以免费获得。但是,只有具有商业许可产品的开源平台才有资格包含在此“魔力象限”中。
评估标准定义
执行能力
产品/服务: 供应商为定义的市场提供的核心商品和服务。这包括当前的产品/服务功能,质量,功能集,技能等,无论是本地提供还是通过市场定义中定义的和子标准中详细说明的OEM协议/合作伙伴关系提供。
总体生存能力: 生存能力包括对整个组织的财务状况,业务部门的财务和实际成功的评估,以及各个业务部门将继续投资该产品,继续提供该产品并改善其状态的可能性。组织产品组合中的艺术。
销售执行/定价: 供应商在所有售前活动中的功能以及支持这些功能的结构。这包括交易管理,定价和谈判,售前支持以及销售渠道的整体有效性。
市场响应 能力 /记录: 随着机会的发展,竞争对手的行动,客户需求的发展以及市场动态的变化,做出响应,改变方向,保持灵活性并取得竞争成功的能力。此标准还考虑了供应商的响应历史。
营销执行:计划 的清晰度,质量,创造力和功效,旨在传达组织的信息以影响市场,促进品牌和业务,提高产品知名度并在产品/品牌和组织中建立积极的认同感。买家的想法。这种“思想分享”可以通过宣传,促销计划,思想领导力,口口相传和销售活动的结合来推动。
客户体验: 关系,产品和服务/程序,使客户能够成功评估产品。具体来说,这包括客户获得技术支持或客户支持的方式。这也可以包括辅助工具,客户支持计划(及其质量),用户组的可用性,服务级别协议等。
运营: 组织实现其目标和承诺的能力。因素包括组织结构的质量,包括技能,经验,程序,系统和其他使组织能够持续有效地运作的工具。
愿景的完整性
市场了解: 供应商了解买方需求和将其转化为产品和服务的能力。表现出最高远见的供应商会倾听并理解买家的需求,并可以通过增加远见来塑造或增强他们的需求。
营销策略: 清晰,差异化的消息集,在整个组织中始终如一地传达,并通过网站,广告,客户计划和定位声明进行外部化。
销售策略: 使用直接和间接销售,市场营销,服务和沟通分支机构的适当网络的产品 销售策略 ,可扩展市场范围,技能,专业知识,技术,服务和客户群的范围和深度。
提供(产品)策略: 供应商的产品开发和交付方法,在与当前和将来的需求相对应时强调差异,功能,方法和功能集。
业务模型: 供应商基本业务命题的合理性和逻辑性。
垂直/行业战略: 供应商指导资源,技能和产品的战略,以满足包括垂直市场在内的各个细分市场的特定需求。
创新: 用于投资,整合,防御性或先发制人的资源,专业知识或资本的直接,相关,互补和协同的布局。
地理策略: 供应商的策略,可以直接或通过适合于该地理和市场的合作伙伴,渠道和子公司来引导资源,技能和产品以满足“本国”或本地地理之外的特定地理需求。
既然来了,说些什么?