转型AI产品经理需要掌握的硬知识

(一)AI产品经理能力模型和常见AI概念梳理

关于AI常见基础概念,你了解多少?

近几年,从亚马逊, Facebook,到谷歌,微软,再到国内的BAT,全球最具影响力的技术公司都将目光转向了人工智能( AI )。2016年 AlphaGo 战胜李世石,把公众的目光也聚集到了人工智能。

创新氛围最活跃的中国,已将人工智能定位国家战略,2017年11月15日,中国新一代人工智能发展规划暨重大科技项目启动会在京召开,公布我国第一批国家人工智能开放创新平台,包括:百度-自动驾驶工智能开放创新平台;阿里云-城市大脑人工智能开放创新平台;腾讯-医疗影像-人工智能开放创新平台;科大讯飞-智能语音人工智能开放创新平台。

现在中国的所有互联网公司,不论大小都在布局人工智能,似乎产品中没有人工智能的元素都不好意思找投资人,大量的科技巨头和专家预测人工智能将带来第四次革命,继农业革命,工业革命,信息革命后从底层改变我们的工作和生活,也有很多专家认为人工智能是中国超越美国的一次千载难逢的机会。

作为一个充满好奇心的产品经理,经过一段时间的学习思考,将我个人对于AI产品经理需要掌握的基础知识进行总结,因为AI产品经理是一个全新的岗位,至今没有明确的能力模型定义,本文只是将我个人的学习和思考进行汇总,将产品经理需要了解的AI知识进行框架梳理,将学习过程中看到的一些资料进行归纳总结,希望对想要转型AI产品的朋友有所帮助。

因为内容较多,将分成三个部分展开论述:

  • 第一部分,介绍AI产品经理能力模型,人工智能发展史及看待人工智能的几个视角,总结学习资料和方法;
  • 第二部分,介绍人工智能的常见算法,如何零基础通过 TensorFlow 实现手写数字识别。
  • 第三部分,分析AI产品经理在2B和2C领域的能力差异,介绍一些可体验的AI产品。

一、AI产品经理能力模型

1、AI产品经理能力模型概述

从现在的招聘市场来看,产品经理岗位已经出现大量细分,如数据产品经理,支付产品经理,ERP产品经理,CRM产品经,供应量产品经理,POP产品经理等,AI产品经理可能将成未来的一个主流细分岗位,而且因为AI对应的领域不同,AI产品经理下面将衍生出大量的细分行业AI产品经理。在讨论AI产品经理之前,我们来看看,非AI产品在公司中需要面对哪些角色,而面对这些角色需要的能力模型是什么,在这个基础上我们再来讨论AI产品经理的能力模型。

产品经理需要每天与工程师,设计,老板,运营,市场,用户/客户,测试等部门同事沟通,AI产品经理从对接人上来看,增加了AI科学家或者AI工程师,为了可以顺畅沟通,产品经理的知识结构必然需要增加相应的知识,以提升沟通效率,清楚产品设计边界。同时,因为AI产品与客户的业务结合更加的密切,所以需要对所设计产品的行业有纵深的全流程理解能力。在这个基础上,我们来尝试搭建AI产品经理能力模型。

产品能力模型可以从人,事,知识三个角度搭建,通过上文的分析,我们可以看到,在人和事上产品经理的能力几乎没有太大变化,但是在知识层面需要进行基础储备,以提高与AI科学家和AI工程师的沟通效率。

人工智能技术正处于高速发展时期,充满了不确定性,所以产品经理的认知极限一定程度上影响了产品的未来,本文将总结人工智能领域的一些基本概念,认知极限需要靠阅读最前沿的paper和团队的AI科学家/工程师多交流,行业纵深的理解需要真实的参与到业务的整个过程中学习,这就为一些非互联网领域的,有着多年细分行业工作经验的,清楚全业务流程痛点的非互联网人提供了转型机会,后面会详细论述。

2、AI产品经理≠AI科学家,应用实现门槛不高

提到AI大家第一印象可能想到的是复杂的数学公式,天书一样的算法模型,需要学习AI难如登天。

但实际情况是,即使做一名AI应用开发工程师,可能也未必要需要理解那些天书一样的复杂算法,Google的深度学习框架Tensorflow极大的降低了数学门槛,这个框架内置了损失函数优化方法,而Keras(基于Tensorflow构建的深度学习框架)可以把一个模型代码量大大减少,究竟能减少多少呢,我们以机器识别猫狗照片的分类器模型为例,可以通过下图中的14行代码搞定,寥寥几行代码就把一个拥有着卷积层、池化层和全连接层并且使用Adam这个较高级优化方法的深度学习网络架构写出来了。

网上有一张图,很有意思,生动的表明了不同的人对机器学习的理解:

我们的目标是成为一名合格的AI产品经理,而不是工程师,所以只要清楚这些技术的实现框架就可以了,只要可以清楚的描述客户需求场景,深刻理解客户诉求,并将其清晰的描述给AI科学家,并能听懂AI科学家的话就可以了,至于他们使用了什么模型,什么算法并不需要你去操心。

3、非互联网行业转型的新机会

前文中提到了AI产品和服务对于垂直行业知识的要求比较严格,下面为face 招聘安防类AI产品经理招聘要求。

  1. 熟悉安防视频业务逻辑,熟悉雪亮工程项目建设内容,熟悉平安城市业务建设要求,熟悉智慧交通业务需求,具备实际产品设计与研发、交付全周期经验者优先。
  2. 2年以上安防行业产品设计经验,负责安防行业产品整体规划,配合公司行业发展,支撑产品行业解决方案;
  3. 负责安防行业的产品市场分析及竞争分析,制定相应产品策略;
  4. 负责安防系统平台的产品定义、平台产品导入和平台产品策略;

可以看出,传统行业中的从业者可以利用其多年经验为AI团队提供认知价值,所以非互联网行业的从业者完全可以通过补全上文提到的互联网产品经理相关知识转型进入到高速增长的AI领域。

二、人工智能发展史

智能:以宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作

:制造出智能的机器,尤其是智能的计算机程序,它能做一些以前需要人才能做的事情,这个机器或者计算机程序就叫人工智能。

人工智能有很多种的表现形式,目前在各个专业的方向,出现了很多超越人类的人工智能。比如在国际象棋上,有 IBM 的国际象棋大师“ Deep Blue ”;围棋上有 Google 的 AlphaGo和AlphaZero;医学上有 IBM 的“ Waston ”;私人助理上有苹果的“ Siri ”,微软的“ Cortana ”;甚至搜索引擎百度和 Google,你也可以把它看做是一个人工智能。它们都由一段段代码、一个个算法、一堆堆的数据组成。

人工智能的黄金时代(20世纪50~70年代)

1950年,一位名叫马文·明斯基(后被人称为“人工智能之父”)的大四学生与他的同学邓恩·埃德蒙一起,建造了世界上第一台神经网络计算机。这也被看做是人工智能的一个起点。同年,被称为“计算机之父”的阿兰·图灵提出了一个举世瞩目的想法——图灵测试。按照图灵的设想:如果一台机器能够与人类开展对话而不能被辨别出机器身份,那么这台机器就具有智能。而就在这一年,图灵还大胆预言了真正具备智能机器的可行性。

1956年,在由达特茅斯学院举办的一次会议上,计算机专家约翰·麦卡锡提出了“人工智能”一词。后来,这被人们看做是人工智能正式诞生的标志。在1956年的这次会议之后,人工智能迎来了属于它的第一次高潮。在这段长达十余年的时间里,计算机被广泛应用于数学和自然语言领域,用来解决代数、几何和英语问题。

人工智能的第一次低谷(20世纪70~80年代)

由于科研人员在人工智能的研究中对项目难度预估不足,导致与美国国防高级研究计划署的合作计划失败,社会舆论的压力也开始慢慢压向人工智能这边,导致很多研究经费被转移到了其他项目上。当时,人工智能面临的技术瓶颈主要是三个方面:

  • 第一计算机性能不足,导致早期很多程序无法在人工智能领域得到应用;
  • 第二,问题的复杂性,早期人工智能程序主要是解决特定的问题,因为特定的问题对象少,复杂性低,可一旦问题上升维度,程序立马就不堪重负了;
  • 第三,数据量严重缺失,在当时不可能找到足够大的数据库来支撑程序进行深度学习,这很容易导致机器无法读取足够量的数据进行智能化。

人工智能的繁荣期(1980年~1987年)

1980年,卡内基梅隆大学为数字设备公司设计了一套名为XCON的“专家系统”。这是一种,采用人工智能程序的系统,可以简单的理解为“知识库 推理机”的组合,XCON是一套具有完整专业知识和经验的计算机智能系统。这套系统在1986年之前能为公司每年节省下来超过四千美元经费。在这个时期,仅专家系统产业的价值就高达5亿美元。

人工智能的冬天(1987年~1993年)

仅仅在维持了7年之后,这个曾经轰动一时的人工智能系统就宣告结束历史进程。80年代末,美国国防先进研究项目局高层认为人工智能并不是“下一个浪潮”,至此,人工智能再一次成为浩瀚太平洋中那一抹夕阳红。

人工智能的新春(1993~现在)

1994年Chinook Checkers,机器国际跳棋上超越了人类;

1997年Deep Blue深蓝战胜国际象棋世界冠军;

2006年,辛顿发表了一篇突破性的文章《A Fast Learning Algorithm for Deep Belief Nets》,这篇论文里辛顿介绍了一种成功训练多层神经网络的办法,他将这种神经网络称为深度信念网络。

2008年卡内基梅隆大学和通用的无人驾驶汽车CMU Boss研发成功;

2012年Amazon的仓储机器人Kiva,减少工人在仓库中走动的频次;

2013年,深度学习算法在语音和视觉识别上取得成功,识别率分别超过99%和95%,进入感知智能时代。

2014年计算机被当13岁男孩 首次通过图灵测试

2014年没有刹车、没有方向盘,只有一个启动Button的Google Car;

2016年AlphaGo4:1战胜李世石;

2017年神秘Master60盘连胜,狂扫棋坛高手。

三、看待人工智能的几个视角

人工智能领域包含大量的概念和定义,如监督学习,机器学习,强化学习,强人工智能等,最初学习的时候很容弄混,其实很多概念是不同角度观察的结果,还有些概念是嵌套关系,现将人工智能领域的概念从不同视角进行梳理。

1、 从连接主义学习来看

非监督学习(unsupervised learning), 非监督学习学的是没有标准答案的样本。拿猫和狗的图片识别举例。算法要自己去寻找这些图片的不同特征,然后把这些图片分为两类。它实际上不知道这两类是什么,但它知道这两类各有什么特征,当再出现符合这些特征的图片时它能识别出来,这是第一类图片,那是第二类图片。

监督学习(supervised leaning),是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。 拿猫和狗的识别来举例子。算法看一张图就告诉它,这是猫;再看一张图片,告诉它这也是猫,再看一张图,告诉它这是狗,如此往复。当它看了几十万张猫和狗的图片后,你再给它一张陌生的猫或者狗的图片,就基本能“认”出来,这是哪一种。这样的学习方法很有可能造A成模型把所有答案都记了下来,但碰到新的题目又不会了的情况,这种情况叫做“过拟合”。

强化学习(reinforcement learning),所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。在智能控制机器人及分析预测等领域有许多应用。 我们小时候,看到马戏团的猴子居然会做算术题,感觉到很惊讶,这是怎么做到的呢?其实就是每次拿对了数字的时候,训练人员就给它一些食物作为奖励,这些奖励让他“知道”,这么做是“对的”,如果拿错了,可能就会有惩罚,这些惩罚就是要让它“知道”,这样做是“错的”。

2016年的 NIPS 会议上,吴恩达 给出了一个未来 AI方向的技术发展图,毋庸置疑,监督学习是目前成熟度最高的,可以说已经成功商用。

2、从智能水平来看

因为好莱坞大量AI题材的影视作品,我们看到的大量的超人工智能,所以再来看现在的AI产品就感觉没那么智能。从智能水平上划分,我们可以将人工智能分为三类,弱人工智能,强人工智能,超人工智能。

弱人工智能Artificial Narrow Intelligence (ANI): 弱人工智能是擅长于单个方面的人工智能。比如有能战胜象棋世界冠军的人工智能,但是它只会下象棋,你要问它怎样更好地在硬盘上储存数据,它就不知道怎么回答你了。

强人工智能Artificial General Intelligence (AGI): 人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能难得多,我们现在还做不到。

超人工智能Artificial Superintelligence (ASI): 牛津哲学家,知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能。”超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍的。

3、从技术分层来看

  • 认知:是指收集信息和解析信息来感知世界,比如图片识别、语音识别、自然语言处理等;
  • 预测:是指通过计算,来预测行为和结果。比如广告推荐,歌曲推荐等;
  • 决策:是指确定实现的方式和路径,比如移动路线规划、自动买卖股票等;
  • 集成解决方案:是指人工智能和其他技术结合时,产生的多种集成解决方案,比如和汽车结合就是无人驾驶,和医疗器械结合就是手术机器人。

目前商业化比较普遍的,是认知和预测领域的应用。

4、从技术分类来看

  • 基础架构层:云计算、芯片、Tensorflow等框架;
  • 中间层:图像识别、语音识别、语义识别、机器翻译等;
  • 应用层:智能滤镜,讲故事机器人,助理机器人,搜索引擎,内容推荐,阿里鲁班制图等。

5、从应用场景来看

  • 互联网和移动互联网应用:搜索引擎、精准营销、用户画像、反欺诈
  • 智能交通:自动驾驶、共享出行、自动物流
  • 智能金融:银行业、保险业、证券投资(风控、反欺诈、投资决策)
  • 智能医疗:辅助诊断、手术机器人、智能制药、辅助器官、外骨骼
  • 智能农业:智慧农业管理系统、智慧农业设备
  • 智能写作:写稿机器人、收集资料机器人
  • 机器翻译:文字翻译、声音翻译、图像翻译
  • 机器仿生:动物仿生、器官仿生
  • 智能助理:律师助理、时间管理助理
  • 创作艺术:编曲、写歌、写小说、绘画

p.s. 人工智能>机器学习>深度学习>神经网络模型>卷积神经网络=递归神经网络

四、学习资料和方法

1、推荐书

科普-发展类:《浪潮之巅》《人工智能狂潮:机器人会超越人类吗?》《人工智能:李开复谈AI如何重塑个人、商业与社会的未来图谱》《智能革命:迎接人工智能时代的社会、经济与文化变革》《AI:人工智能的本质与未来》《科学的极致-漫谈人工智能》《终极算法》

科普-脑洞类:《三体》《未来简史》《奇点临近》《机器人时代》

个人感觉产品经理读上面的这些有一个宏观的认知就可以了,核心是对业务纵深的理解,对AI技术边界的理解,对AI技术知识的框架理解(后面会介绍机器学习的常见算法及应用场景),下面的书是AI开发同学会看的书,真的感兴趣可以看看。

学术类:《世界著名计算机教材精选·人工智能:一种现代的方法(第3版)》《深度学习》

编程类:《白话深度学习与TensorFlow》《TensorFlow实战》《Python编程 从入门到实践》

数学类:《数学之美》《程序员的数学》(简单数学入门)《程序员的数学-2》(概率与统计)《程序员的数学-3》(线性代数)

2、推荐学习网站

吴恩达在163课堂上的深度学习课程、coursera上的机器学习课程、gitchat上人工智能课程、udacity上深度学习课程等

3、推荐公众号

36大数据、凡人机器学习、机器之心、CSDN大数据、智能玩咖、专知、网易智能

4、读paper网站

https://www.semanticscholar.org/search?q=ai&sort=relevance、google 论文

因为AI产品经理能力模型中很重要的一点就是拓宽认知边界,所以非常有必要读最前沿的paper,不用纠结与算法,只看这样的算法可以做什么!

P.S. BAT做AI能不能成?最大的机会在哪里?

在回答这个问题之前,我们先来看人工智能当下的发展现状,当下的人工智能是有明确边界的,有一种说法叫一秒法则,人工智能可以处理人1秒中可以想出答案的问题,这个问题还需要有以下几个特点:大规模,重复性,限定领域,快速反馈。

从前文中人工智能发展史我们可以看到,资本在人工智能发展中扮演重要角色,而当下人工智能的特性非常适用于企业层面的效率提升,而且企业可以承担更高的采购费用,企业投资和个人消费的逻辑差异性极大,企业计算的是相对人工的长期成本差异,一个机器人10万元,可以持续升级并使用四年,这个成本就远低于一个工人的四年人力成本总和,而且机器人不用休息。

所以我们能看到,今天的AI主要也是在2B端发力,2C端的产品多是音响,助理等,用户付费意愿不强,或者使用场景单一,曾经看过一份报告,语音机器人的最主要交互是查询天气预报,定闹钟,听音乐,这远远达不到家用机器人的要求。

再来看BAT在人工智能方面有哪些优势,BAT在人工智能的布局早早开始,百度A(AI)B(Big data)C(Cloud)战略,阿里腾讯也有各自云服务,大数据中心,人工智能实验室,这些大公司胜在基础架构层、数据量和资本优势上,拥有大量的人工智能科学家,可以持续优化算法,提升算法模型的准确度。

从产品对于AI技术准确性需求的角度来看,分成两种情况,一种是需要算法准确度需要达到99.9999%才能应用的产品,一种是算法准确率达到99%或者95%就可以的产品。

准确度要求极高的产品或服务。如手术机器人,自动驾驶技术,智慧交通等,这些产品和服务直接关系到人的生死,要求具有极高的准确度,需要AI科学家持续的优化,只有达到近乎百分之百的准确度才会商用。

准确度要求不高的产品或服务。如面部识别,语音机器人,无人机农药喷洒,艺术设计,搜索引擎,精准营销等,这些产品和服务对于精确度要求不高,因为即使不精确也不会直接造成人员伤亡。

再来从行业的垄断程度看,分为垄断程度高的行业和垄断程度低的行业。

垄断程度高的行业。行业的垄断程度越高,头部公司的体量越大,最初可能因为缺乏AI技术而采购技术,当技术环境成熟,BAT和google这类公司开源了大量技术后,行业垄断型公司会则会搭建自己的AI团队,搭建自己的大数据,云计算和AI实验室,以运营商行业为例,资源垄断型市场,三家独大,每家都在搭建自己的大数据分析平台,也在搭建自己的人工智能实验室。

垄断程度低的行业。如衣食住行相关的制造业和零售行业,因为分散,他们有需求,但是没有足够体量和资本自己搭建AI团队,所以他们会将AI技术作为一项工具,以合理的价格采购成套服务,来实现 AI的升级。

如同当年的互联网 和 互联网一样,也会演化出AI 和 AI的发展方向。

通过上面的分析,我们可以绘制象限图。

  • 我认为第一象限因为BAT拥有科学家优势,虽然垄断程度高的企业很有钱,但是因为BAT有数据优势和科学家优势,在这个领域BAT优势明显,可以向企业提供独特的AI服务,提升垄断企业效率,这部分产品需要靠AI科学家驱动。
  • 第三象限虽然技术门槛低,垄断程度低,会出现大量小AI公司进入这个市场,BAT进入这个市场拥有足够的品牌优势,因为市场需求量较大,BAT可以考虑做开放平台,为有垂直领域的AI公司体统底层服务,如果自己来做,这部分服务和产品将是运营和产品来主要驱动。
  • 第二象限暂时来看不太适合进场,第四象限垄断企业会自己组建AI团队来做,我们能看到,手机制造这个还不算垄断的行业中,因为资本实力雄厚,各个厂家已经在组建自己的AI研发团队。

回答最初的问题,个人感觉BAT做AI有机会,在第一象限有合作研发的机会,在第三象限有平台或垂直服务的机会,垂直领域的知识可以通过招聘获取,垂直领域的市场拓展是最困难的,下面将从企业属性来分析这个问题。

关于2B类的服务,这里提供给大家两个视角,第一个视角,从民营企业视角看AI。第二个视角,从国营企业视角看AI,笔者个人感觉,民营企业和国有企业的在 AI上的需求上差异性极大。

从民营企业视角看AI。民营企业的核心诉求就是创造更多的价值,赚更多的钱,可以从开源和节流两个角度进行 AI,民营企业家和管理者有充足的动力去进行改革升级,只要技术是有用的,可以提升效率或压缩成本的,民营企业会积极拥抱改变,从吴晓波老师的激荡三十年可以看到,中国的企业家不缺乏面对变革时转型的决心和行动力。BAT可以考虑在尽可能多民营企业家聚集的场合,推广真实高效的 AI产品和服务,如吴晓波频道的年会,罗胖的年会等。

从国营企业视角看AI。国营企业即承担创造价值的责任,也同时承担着保证国有资产不流失的责任,组织内部员工多是对上级和自己的职位负责,所以创新一定要稳妥,而且国营企业有个有趣的现象,每年年底写第二年工作计划时,必须要有创新,也就是每年都要有新的创新点,但是不能太激进,国有企业的核心诉求是不犯错,未必有功,但求无过,所以如果BAT的产品只是专注于提升效率并不符合国有企业的中层和领导的诉求。但是,国有企业其实有大型互联网公司赋能创新的需求,这个时候需要BAT等AI企业积极主动的提供解决方案。

现在的国有企业技术服务招标有一套冗长的流程,所以要想搞定这些国有企业,首先提供高效便捷的AI产品和服务,同时从顶层或中层得到领导认可,从执行层面为企业招标准备完善资料和陪标公司。大型的国有企业的定制化要求很高,现在用友和亚信等软件开发团队多是长期驻厂,提供运维服务和新需求开发,如果BAT真的想要做垂直领域的AI服务,则需要BAT放下架子,做好持久战的准备。

下一篇文章将介绍AI常见的算法和常见AI产品使用的技术模型,并介绍一些常见的模型概念,如卷积神经网络,递归神经网络等,同时将分享如何利用TensorfLow快速实现手写数字识别,准确度可达到98%,通过这个过程,产品经理们可以初步了解到AI的实现过程。

(二)AI常见概念和算法梳理

上一篇文章介绍AI产品经理能力模型,人工智能的发展历史,人工智能常见概念的结构梳理,也简要做了BAT人工智能的优势分析,感兴趣的朋友可以点击链接查看上文:《转型AI产品经理需要掌握的硬知识一:AI产品能力框架和看待AI的几个视角 》

本文将继续介绍AI产品经理需要理解的一些概念,常见AI算法,机器学习的工作方式和三大流派,使用Tensorflow实现手写数字识别,帮助大家理解技术实现流程和一些AI技术名词,更有助于同AI科学家或AI工程师的沟通。

一、常用AI技术概念

提到人工智能,大家应该都听说过这样几个概念:人工智能,机器学习,深度学习,模式识别,知识图谱,卷积神经网络,递归神经网络,以及与人工智能直接相关的概念,如云计算,数据挖掘等,这些概念之间是什么关系呢?笔者找到了一张这些概念的关系图,可以将上述概念串在一起,更易理解,如下图所示:

1、人工智能>机器学习>深度学习

人工智能(Artificial Intelligence):英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

机器学习(Machine Learning):机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。机器学习还有下面几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。

“机器学习的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。

深度学习(Deep Learning):深度学习的概念源于人工神经网络的研究,是一种含多隐层的多层感知器。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度机器学习方法也有监督学习与无监督学习之分。

不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。

2、神经计算>人工神经网络>深度学习>卷积神经网络/递归神经网络

神经计算科学是使用数学分析和计算机模拟的方法在不同水平上对神经系统进行模拟和研究: 从神经元的真实生物物理模型,它们的动态交互关系以及神经网络的学习, 到脑的组织和神经类型计算的量化理论等,从计算角度理解脑,研究非程序的、 适应性的、大脑风格的信息处理的本质和能力,探索新型的信息处理机理和途径。

延伸阅读:计算神经科学

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。

每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。

延伸阅读 神经网络的简化理解

深度学习的概念见上文。

卷积神经网络和递归神经网络下文算法中详细介绍。

3、模式识别、知识图谱和专家系统

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。

我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。

应用计算机对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象。这些对象与数字形式的信息相区别,称为模式信息。它与人工智能、图像处理的研究有交叉关系。

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。

构建知识图谱的重点在于语义理解、知识表示、QA、智能对话和用户建模。知识图谱是一系列结构化数据的处理方法,它涉及知识的提取、 表示、存储、检索等诸多技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。

延伸阅读 知识图谱技术解剖

专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题。专家系统就是人去学一个东西,然后把学到的知识理论化,再把这些理论模型化,最后把这个模型程序化,形成一个系统,就叫专家系统。知识图谱可以作为专家系统的一部分存在,提供半自动构建知识库的方法。

二、常见算法概述

前文中我们提到了深度学习,既然有深度学习就一定有浅度学习,其区别体现在隐藏层的数量上,一般来说,浅层学习没有隐藏层或者只有一层隐藏层,常见算法包括线性回归、逻辑回归、随机森林、SVM、K-means、RBM、AutoEncoder、PCA、SOM等。深度学习通常会有较多隐藏层,可以表达复杂函数,识别更多复杂特征。常见算法有CNN卷积神经网络和RNN递归神经网络,而基于RNN衍生出了LSTM和GRU等一系列算法。

下面将介绍学习过程中一些常见的算法分类,AI产品未必掌握具体算法实现细节,但是需要掌握一些常见算法概念,它们可以处理什么类型的问题,有什么优点,一般应用在哪些领域。

1、决策树

决策树根据数据的属性采用树状结构建立决策模型, 用树形结构对数据进行分类,在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,决策树模型常常用来解决分类和回归问题。以服装购买为例,首先判定是否喜欢,不喜欢则不买,喜欢则看价格,价格不合适则不买,合适则看是否有合适的尺码,没有合适的尺码则不买,有则购买,基于以上选择,可以画出一个简单的树桩结构。

场景举例:基于规则的信用评估、赛马结果预测

优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估

常见相关算法:分类及回归树(Classification And Regression Tree, CART)、ID3(Iterative Dichotomiser 3)、GBDT、C4.5、Chi-squared Automatic Interaction Detection(CHAID)、Decision Stump、随机森林(Random Forest)、多元自适应回归样条(MARS)、梯度推进机(Gradient Boosting Machine, GBM)

随机森林(Random forest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。

优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用

场景举例:用户流失分析、风险评估

2、回归算法

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法,可以勾画出因变量与一个或多个因变量之间的状态关系。可以利用回归算法将垃圾邮件和非垃圾邮件进行了区分。常见算法有最小二乘法(Ordinary Least Square)、线性回归、逻辑回归(Logistic Regression)、逐步式回归(Stepwise Regression)、多元自适应回归样条(Multivariate Adaptive Regression Splines)、本地散点平滑估计(Locally Estimated Scatterplot Smoothing)

场景举例:路面交通流量分析、邮件过滤

优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显

3、基于核函数的学习算法

基于核的算法中最著名的莫过于支持向量机(SVM)了。 基于核的算法把输入数据映射到一个高阶的向量空间, 在这些高阶向量空间里, 有些分类或者回归问题能够更容易的解决。常见算法有支持向量机(Support Vector Machine, SVM)、径向基函数(Radial Basis Function ,RBF)、线性判别分析(Linear Discriminate Analysis ,LDA)。

延伸阅读 基于核函数的学习算法

4、基于实例的算法

常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。常见算法有k-Nearest Neighbor(KNN),、学习矢量量化(Learning Vector Quantization, LVQ)、自组织映射算法(Self-Organizing Map , SOM)。

延伸阅读 基于实例的学习

5、神经网络

神经网络也是一种分类器。它是由很多个虚拟的神经元组成的一个网络,我们可以把一个神经元看做是一个分类器,那很多个神经元组成的网络就能对样本进行很多次分类。

CNN(Convolutional Neural Networks)卷积神经网络,是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。

优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的

场景举例:图像识别、文本转语音、药物发现、照片滤镜、人脸识别,无人汽车等。

RNN(Recurrent Neural NetWorks递归神经网络,在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。递归神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。

递归神经网络其实是两种人工神经网络的总称,一种是时间递归神经网络(recurrent neural network),另一种是结构递归神经网络(recursive neural network)。时间递归神经网络的神经元间连接构成有向图,而结构递归神经网络利用相似的神经网络结构递归构造更为复杂的深度网络。两者训练的算法不同,但属于同一算法变体。基于RNN还衍生出了LSTM(Long-Short-Term-Memerory)和GRU(Gated Recurrent Unit)等一系列算法,这些算法拥有记住过去的能力,所以可以用来处理一些有时间序列属性的数据,在处理语言、文字等方面有独到的优势,LSTM和GRU的优点是具备与其它递归神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用。

优点:递归神经网络在存在大量有序信息时具有预测能力

场景举例:图像分类与字幕添加、政治情感分析、对话机器人,机器翻译,科大讯飞的自然语言识别,文章编辑等。

6、叶贝斯算法

贝叶斯是一个定理,它的意思是:当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。当我们找到若干个这样的特征,然后用这些特征进行组合后,可以进行判断,常见算法有朴素贝叶斯算法、平均单依赖估计(Averaged One-Dependence Estimators, AODE)、Bayesian Belief Network(BBN)。

举例来看,要识别一封邮件是不是垃圾邮件。可以随机挑选出100封垃圾邮件,分析它的特征,我们发现“便宜”这个词出现的频率很高,100封垃圾邮件里,有40封出现了这个词。那我们就以这个认知为依据,得出结论:如果出现了“便宜”,那这封邮件有40%的概率是垃圾邮件。

优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类

场景举例:情感分析、消费者分类

7、聚类

聚类是一种非监督学习的方式。简单的说,就是通过不断的迭代计算,把数据分成若干个组,使得这个组里的都是类似的数据,而不同组之间的数据是不相似的。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。可以用于图像分类识别,用户行为识别,用户画像等领域。常见算法有k-Means算法、期望最大化算法(Expectation Maximization, EM)。

8、强化学习模型

在没有给出任何答案的情况下,先进行一些尝试,通过尝试所得到的回报,来确定这个尝试是否正确,由这一系列的尝试来不断调整和优化算法,最后算法知道在某种情况下,采取何种动作可以得到最好的结果。他的本质是解决“决策问题”,就是通过不断做出决策并获得结果反馈后,学会自动进行决策,得到最优结果。比如上面说过的猴子“学会”做算术题的过程。

9、集成学习模型

用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。

我们在做机器学习的时候,希望能做出各个方面表现都比较好的模型。但常常现实是我们的模型是有偏好的,可能只对某一些情况效果比较好,这个时候我们就希望把若干个这样的模型组合起来,得到一个更好更全面的模型,这种方法,就叫做集成学习。常见算法有Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、堆叠泛化(Stacked Generalization, Blending)、梯度推进机(Gradient Boosting Machine, GBM)、随机森林(Random Forest)。

三、三大流派

经过几十年的发展,人工智能演化出了多个分支流派,这些分支一直都在彼此争夺主导权,此次人工智能的爆发,主要源于联结主义的神经网络有了突破性发展,将语音识别和视觉识别的准确度分别达到了99%和95%。未来的发展很可能是这三大流派彼此合作,因为算法融合是实现真正通用人工智能(AGI)的唯一方式。

①符号主义(Symbolism):是一种基于逻辑推理的智能模拟方法,又称为逻辑主义(Logicism)、心理学派(Psychlogism)或计算机学派(Computerism),其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理,长期以来,一直在人工智能中处于主导地位。

②联结主义(connectionism):认为人工智能源于仿生学,特别是对人脑模型的研究。它从神经元开始进而研究神经网络模型和脑模型,开辟了人工智能的又一发展道路。1986年,鲁梅尔哈特(Rumelhart)等人提出多层网络中的反向传播算法(BP)算法。此后,连接主义势头大振,从模型到算法,从理论分析到工程实现, 为神经网络计算机走向市场打下基础。

③行为主义:控制论思想早在20世纪40~50年代就成为时代思潮的重要部分,影响了早期的人工智能工作者。实际上是从行为上模拟和体现智能,也就是说,模拟人在控制过程中的智能活动和行为特性来研究和实现人工智能,行为主义思想在智能控制、机器人领域获得了很多成就。

还有一种说法,将人工只分为五大流派,分别是符号主义,贝叶斯主义,联结主义,进化主义和Analogizer,扩展阅读三张图读懂机器学习:基本概念、五大流派与九种常见算法 文中包含大量延伸阅读链接。

四、机器学习的工作流程

  1. 选择数据:将你的数据分成三组:训练数据、验证数据和测试数据
  2. 模型数据:使用训练数据来构建使用相关特征的模型
  3. 验证模型:使用你的验证数据接入你的模型
  4. 测试模型:使用你的测试数据检查被验证的模型的表现
  5. 使用模型:使用完全训练好的模型在新数据上做预测
  6. 调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现

五、手写数字识别流程概述

本文下面内容源于gitchat上刘颖老师的人人都能看懂的 AI 入门课,对代码感兴趣的朋友可以点击查看。本文不讨论代码实现,仅讨论实现流程和实现过程中的一些概念。

1、TensorFlow基础

TensorFlow 是 Google 开源的一款人工智能学习系统。使用很方便,几行代码就能开始跑模型,这让神经网络的入门变得非常简单。Google 开源了 TensorFlow,希望占领 AI 端。Google 也为入门者提供了一个这样的例子,也就是 TensorFlow 里的“ hello world ”,这个例子的名字叫“ MNIST ”,MNIST机器学习入门可点击查看。下文将简述实现过程,重在理解流程和一些模型设计概念。

2、 手写图片识别实现步骤概述

刘颖老师对项目做了三次优化,使手写数字的准确率从92%->98%->99.25%,1.0版使用一个最简单的单层的神经网络进行学习,2.0版使用了卷积神经网络,3.0版使用 Keras 框架,增加20层网络的深度。

手写图片识别的实现,分为三步:(1)数据的准备;(2)模型的设计;(3)代码实现

3、数据准备

在写代码的过程中,数据的预处理是最大的一块工作,60%以上的代码在做数据预处理。 这个项目的预处理,分为5步:

把输入和结果分开

对输入进行处理:把一维的输入变成28*28的矩阵

对结果进行处理:把结果进行 One-Hot 编码

把训练数据划分训练集和验证集

对训练集进行分批

那么准备的数据是什么样的呢?刘颖老师使用Kaggle 里包含了42000份训练数据和28000份测试数据,这些数字是28*28像素的手写数字图片,可以将一张图理解为一个二维数组结构,如下图所示:

Kaggle 的数据将二维数组转化为了一维数组,也就是28*28=784列,包括图片代表的数字一共785列,所以上文中的测试和训练数据被转为[42000,785]和[28000,784]的数组,这就是图片的预处理。

人类可以快速识别图像并对应到记忆中的事物,而图像在计算机看来是这样的:

4、单层的神经网络学习流程及相关概念

使用一个最简单的单层的神经网络进行学习的模型设计如下所示:

用 SoftMax 来做为激活函数

用交叉熵来做损失函数

用梯度下降来做优化方式

激活函数:每个神经元,在通过一系列计算后,得到了一个数值,怎么来判断应该输出什么?激活函数就是解决这个问题,你把值给我,我来判断怎么输出。所以一个神经网络,激活函数是非常重要的。目前主流的几个激活函数是:softMax,sigmoid,tanh,ReLU。

SoftMax:我们知道 max(A,B)是指 A 和 B 里哪个大就取哪个值,但我们有时候希望比较小的那个也有一定概率取到,怎么办呢?我们就按照两个值的大小,计算出概率,按照这个概率来取 A 或者 B。比如A=9,B=1,那取 A 的概率是90%,取B的概率是10%,这就是SoftMax。

损失函数:损失函数是模型对数据拟合程度的反映,拟合得越好损失应该越小,拟合越差损失则越大,然后我们根据损失函数的结果对模型进行调整。

交叉熵:交叉熵通俗的讲就是现在的训练程度和圆满之间的距离,我们希望距离越小越好,所以交叉熵可以作为一个损失函数,来衡量和目标之间的距离。

梯度下降:我们将要解决的问题比作是一座山,答案在山底,我们从山顶到山底的过程就是解决问题的过程。在山顶,想找到最快的下山的路。这个时候,我们的做法是什么呢?在每次选择道路的时候,选最陡的那条路。梯度是改变率或者斜度的另一个称呼,用数学的语言解释是导数。对于求损失函数最小值这样的问题,朝着梯度下降的方向走,就能找到最优值了。

5、卷积神经网络学习流程及相关概念

卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层)

卷积层1 激活函数 池化层1 卷积层2 激活函数 池化层2 全连接1 Dropout 层 输出层

卷积层的作用是指对图片的矩阵进行卷积运算,得到一些数值,作为图片的某些特征。

池化层的作用是对上层的数据进行采样,也就是只留下一部分,这样的作用是可以缩小数据量和模糊特征。

全连接层就是连在最后的分类器。前面卷积层和池化层进行处理后,得到了很多的特征,全连接层使用这些特征进行分类。比如识别数字,那就是对0~9的十个类别进行分类。

Dropout层是为了防止 CNN 对训练样本过拟合,而导致处理新样本的时候效果不好,采取的丢弃部分激活参数的处理方式。

这里对这些概念的解释都是比较简单的,如果希望详细了解,可以看知乎的这个链接:CNN卷积神经网络是什么? 卷积神经网络

6、使用 Keras 框架实现多层神经网络学习

使用 Keras 框架提升准确率

增加网络的深度,这里增加到了20层

每次卷积完之后,加入规范层

使用最新的 SELU 激活函数,这是 Sepp Hochreiter 最新发表在 arXiv 上的激活函数

概括来看,图片识别中需要完成数据的准备,模型设计,代码实现三部分,浅层学习需要选择激活函数,损失函数和优化方式,应用卷积神经网络在模型设计时需要考虑输入层、卷积层、激活函数、池化层、全连接层等。

笔者暂时可以理解的只有这些,希望AI大神或前辈可以多多指正,如果AI产品经理的岗位求内推,如果AI产品经理的岗位求内推,如果AI产品经理的岗位求内推,重要的事情说三遍~

下一篇文章尝试总结我们身边的一些2B和2C的AI产品,并且尝试着对于未来AI产品的应用场景开开脑洞。

(三)2B和2C类AI产品/公司/脑洞

前面两篇文章笔者脑补了AI产品经理能力模型,系统梳理了一些AI常见概念和算法,感兴趣的朋友可以关注查看往期文章或点击下面链接查看详情:

  1. 转型AI产品经理需要掌握的硬知识(一):AI产品经理能力模型和常见AI概念梳理
  2. 转型AI产品经理需要掌握的硬知识(二):AI常见概念和算法梳理

一、前文思维导图总结

第一篇文章中,系统介绍了AI发展史,在学习的过程中也看到过关于这一轮AI崛起持续不了多长时间的论点,但笔者乐观的认为这一轮AI崛起不会如前两次般遭遇冬天,也不会像前两年大红大紫的3D打印和AR/VR一样火不过一年(产品化不成功,刚需使用场景缺失)。从前两轮AI崛起没落可以看出,人工智能的发展受到以下四个因素的限制:计算能力、大数据、算法、产品化和资本因素的限制。

计算能力:人工智能的概念于1956年提出,当时IBM的电脑仅能存储5M数据,其运算速度与今天的一部普通手机的运算速度差距都如同云泥。计算机的运算能力复合摩尔定律,经过50多年的发展,其运算速度得到极大提升,天河二号超级计算机的运算速度可达到每秒 33.86千万亿次的浮点运算,未来的生物计算机的运算速度更是值得期待;

大数据:早期计算机学习没有大量可供学习的数据,而经过10年个人电脑普及,10年全球互联网的蓬勃发展,智能手机的4G网络的普及覆盖,万物联网带来上百EB的数据量,这些数据都是AI的养料,可以说本轮的机器学习是大数据喂养出来的;

算法和产品化:每一轮AI的崛起都源于算法层面的突破,深度神经网络学习让机器学习在自然语言识别和视觉识别领域的识别准确度分别达到99%和95%,为AI的产品化创造了可能性,互联网的连接属性极大提升了人与人,人与服务的连接效率问题,而未来的AI产品将从人类社会分工的底层提升生产效率,进而影响我们的工作和生活,尤其在2B领域,下面会系统介绍;

资本:前两次AI寒冬均因为项目未能按时按预期交付完成,美国政府或军方撤资,导致研究无法继续,而本轮AI的崛起并非政府主导,而是商业资本 国家扶植,我国的四大AI平台是以民营企业为主导,所有的AI科学家也都进入到企业,商业资本疯狂追逐着人工智能公司,为其产品化保驾护航。

第二篇文章中,系统介绍了一些人工智能概念和算法,已将相关内容做成了思维导图,感兴趣的朋友可以留言区留下邮箱,笔者邮件分享xmind下载链接。

本文结构如下图所示:

本文尝试基于使用场景或产品,梳理相关技术实现原理,分享参考阅读文章,推荐试用产品,相关公司简介等,因为人工智能几乎可以覆盖所有已知的领域,可以根据具体需要查看相应部分内容,也希望大家留言区分享优秀AI文章链接和学习资料。

二、AI产品总揽

1. 输入法、AI助理、机器翻译(自然语言处理NLP)

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

1.1 概要介绍

自然语言处理(简称NLP)包括:句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统,网上搜索自然语言识别相关技术,我们可以看到基于聚类分析可以实现自然语言识别,基于模式识别可以实现自然语言识别,基于深度神经网络也可以实现自然语言识别。

1.2 推荐阅读材料

1.3 推荐试用产品

  • 自然语言识别:讯飞输入法(PC软件和手机APP),讯飞语记(手机APP),百度输入法PC软件和手机APP)
  • 远场语音识别(智能音箱):亚马逊Echo,谷歌Home,苹果HomePod
  • 机器翻译:google翻译
  • 多轮对话机器人:苹果siri,微软小冰,百度度秘,小i,小黄鸡,图灵机器人

1.4 相关公司

百度AI开放平台、科大讯飞开放平台、腾讯AIP开放平台、阿里智能A 、今日头条、搜狗

2. 物流分拣机器人

2.1 概要介绍

分拣机器人(Sorting robot),是一种具备了传感器、物镜和电子光学系统的机器人,可以快速进行货物分拣。电商平台的蓬勃发展,自动分拣机器人已得了广泛的应用。亚马逊,阿里巴巴和京东均已将智能分拣机器人应用在货物分拣工作中,极大节省人工成本,号称一小时可以完成18000单的分拣工作。

牛!快递分拣机器人, 一小时可分拣18000件

2.2 推荐阅读材料

工业机器人分拣技术的实现

快递分拣无人化有哪些关键技术?

物流机器人市场发展迅速,分拣机器人的工作原理介绍

2.3 相关公司

亚马逊、阿里巴巴、京东商城、顺丰、申通等

3. 自动驾驶

3.1 概要介绍

自动驾驶汽车(Autonomous vehicles;Self-piloting automobile )又称无人驾驶汽车、电脑驾驶汽车、或轮式移动机器人,是一种通过电脑系统实现无人驾驶的智能汽车。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆。

2017年7月6日,百度AI开发者大会现场连线视频中“李彦宏乘坐无人驾驶汽车上北京五环”的消息刷爆了朋友圈,近期一条自动驾驶大巴深圳上路的新闻刷爆朋友圈,由海梁科技携手深圳巴士集团、深圳福田区政府、安凯客车、东风襄旅、速腾聚创、中兴通讯、南方科技大学、北京理工大学、北京联合大学联合打造的自动驾驶客运巴士——阿尔法巴(Alphabus)正式在深圳福田保税区的开放道路进行线路的信息采集和试运行。让这个焦虑的世界又多了一批焦虑的人–公交车司机。

沃尔沃根据自动化水平的高低区分了四个无人驾驶的阶段:驾驶辅助、部分自动化、高度自动化、完全自动化

  1. 驾驶辅助系统(DAS):目的是为驾驶者提供协助,包括提供重要或有益的驾驶相关信息,以及在形势开始变得危急的时候发出明确而简洁的警告。如“车道偏离警告”(LDW)系统等。
  2. 部分自动化系统:在驾驶者收到警告却未能及时采取相应行动时能够自动进行干预的系统,如“自动紧急制动”(AEB)系统和“应急车道辅助”(ELA)系统等。
  3. 高度自动化系统:能够在或长或短的时间段内代替驾驶者承担操控车辆的职责,但是仍需驾驶者对驾驶活动进行监控的系统。
  4. 完全自动化系统:可无人驾驶车辆、允许车内所有乘员从事其他活动且无需进行监控的系统。这种自动化水平允许乘客从事计算机工作、休息和睡眠以及其他娱乐等活动。

3.2 推荐阅读材料

3.3 推荐试用产品

特斯拉 Model S

3.4 相关公司

百度无人驾驶车项目于2013年起步,由百度研究院主导研发,其技术核心是“百度汽车大脑”,包括高精度地图、定位、感知、智能决策与控制四大模块。其中,百度自主采集和制作的高精度地图记录完整的三维道路信息,能在厘米级精度实现车辆定位。同时,百度无人驾驶车依托国际领先的交通场景物体识别技术和环境感知技术,实现高精度车辆探测识别、跟踪、距离和速度估计、路面分割、车道线检测,为自动驾驶的智能决策提供依据。

特斯拉(Tesla),是一家美国电动车及能源公司,产销电动车、太阳能板、及储能设备。Tesla 的计划是通过不断迭代辅助驾驶技术,使之最后升级成为无人驾驶。停留在辅助驾驶阶段时,需要驾驶员。驾驶员有完全控制权,可以反制或取消辅助驾驶的行为,完全对安全负责。

Google 无人驾驶是一步到位的,基本原则就是不需要人类干预,没有驾照的人也可以单独上车,上车就睡,乘客不承担责任。

乐视网汽车频道于2010年8月20日正式上线,依托乐视网视频方面的优势,将丰富、精彩、实用的汽车内容以视频的形式呈现给广大的网友,内容涵盖新车报道、行业新闻、试乘试驾、维修保养、原创汽车视频、车模风采、消费维权、汽车赛事等栏目·精彩的视频让网友轻松享受汽车行业的视听盛宴。不幸的是无人驾驶和智慧出行是趋势,但是2017年并不是其爆发点,庞大的乐视帝国因为供血无人汽车崩盘了。

4. 人脸识别

4.1 概要介绍

人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。2017年被全面应用在手机解锁中。人脸识别系统主要包括四个组成部分,分别为:人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别。

人脸识别技术产品已广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗及众多企事业单位等领域。随着技术的进一步成熟和社会认同度的提高,人脸识别技术将应用在更多的领域。而这个行业涌现出了像湖南视觉伟业、北京旷视科技、北京商汤科技等一批优秀的企业。

4.2 推荐阅读材料

4.3 推荐试用产品

iPhone X,VIVO X20,mate 10 等前置摄像头解锁;公司门禁;移动支付

4.4 相关公司

北京旷视科技有限公司;视觉伟业;商汤科技;海康威视

这些公司的优势分析,详见下文:人脸识别技术公司十大排名

5. 视觉设计

5.1 概要介绍

自拍类APP越来越多,结合人脸识别技术,可以在人的面部或头部添加耳朵,鼻子,王冠等道具,识别锁定人的面部或肢体,保证道具可以自动随着人的移动而移动。

ostagram可以实现自动世界一张图中设计元素,赋予另外一张图作为滤镜,可以设计出效果超赞的设计效果,把一张普普通的风景照变成梵高风格的油画。

5.2 推荐阅读材料

5.3 推荐试用产品

美拍、SNOW相机、Faceu激萌,B612、羞兔、IN、美咖相机、LINE camera等手机APP支持人脸自动识别,猫耳朵、兔耳朵、狐狸耳朵、猪耳朵随你挑。

ostagram和prsima,实现自己设计滤镜效果

STYLE2PAINTS 线稿自动上色。点击试用

6. 文章编辑

6.1 概要介绍

机器人写稿已经不是什么新鲜事了,早两年国外还出过专门的资讯APP,内容全部由机器抓取并生成短消息,主要集中在体育、财经等领域。很多海外的传统媒体都已经运用上了机器人写作,因为人工智能可以监测网络热词,所以比起对热点时间的敏感度,机器人的反应更灵敏,响应速度更快。机器人知道什么会成为热点,也能第一时间把热点传递给受众。在媒体行业,AI写稿是未来的一个趋势,特别是类似财报、体育快讯、股市消息等结构化、标准化的以数据为主信息,人工处理反而不如AI精准、高效。

6.2 推荐阅读材料

6.3 推荐试用产品

腾讯的Dreamwriter、百度的写作大脑、新华社的“快笔小新”、今日头条的“xiaomingbot”

三、不同领域AI脑洞

1、人工智能 用户画像

人工智能可以根据用户行为进行打标签,通过个性化标签绘制出用户画像,识别用户需求,预测用户行为,传统企业的广告投放为的是吸引目标用户,传统媒体的广告投放没有办法精准投放到目标用户,只能广撒网,随着互联网的普及,百度可以基于关键字显示广告,今日头条可以基于用户的浏览行为推荐广告,淘宝可以基于用户的浏览记录为用户推荐可能喜欢的商品,微信可以根据用户的各类信息精准推荐朋友圈广告。这些都是通过人工智能为用户行为打标签,绘制用户画像,号称今日头条会给用户打上万个标签。

我们可以看到,这些画像实际上掌握在类似于BAT这种平台型互联网公司手中,尤其是腾讯的社交数据和阿里的购物和地图数据,通过人工智能聚类分析,根据用户的行为数据便可以清晰的描述一个人的真实形象和诉求,未来这种用户画像可能被更多的应用到传统企业中,传统企业也包含了大量的数据,传统企业通过提供自身数据,打通于大型平台的数据,共同完善用户画像,可以清晰的描绘出用户的画像,所有的销售和推广行为将变得更加高效。

2、人工智能 新零售

前些年都说电商会灭掉线下零售,但从今天来看,线下的vivo和oppo逼着线上销售的小米大量开店,线上销售仅占全国零售总量的10%左右,马云爸爸讲起了新零售,开了盒马生鲜和无人超市,腾讯入股永辉超市,布局新零售。未来商场中的门店可能安装大量具有人工智能功能的摄像头,当用户走入店面,根据季节和用户穿着,历史数据等信息,预判用户需求和喜欢风格,店员第一时间获得相关信息,为客户提供专业的贴心服务。这种摄像头同样可以管控店内员工的服务动作是否标准,帮助老板实时了解一线销售人员的销售能力,可以进行针对性的培训。

同时通过分析用户行走轨迹,店外用户的视线关注点优化店面陈列,吸引客流。有些商场已经利用一块大屏幕实现了ar试衣功能,虽然现在的产品很傻瓜,效果也不是很好,但是未来值得期待。我们来假设未来一个用户进店时候自动识别用户的身高,身材,性别,当下穿衣风格等信息,基于人脸创建ID,当用户站在试衣屏幕前,直接推荐品牌的混搭风格的服装,用户可以转身和切换生活中常见场景,服装可以完美贴合用户身材,省去用户试衣的繁琐操作,同时可以获取用户喜好数据。

3、人工智能 国企/政府

从本质上看,国家和企业很像,都是人们共同想象的产物,而中国政府的社会资源的调动能力极强,很多人说ai将是中国弯道超越美国的机会,中国有大量的人口,高速的连接网络,政府有形的大手有动力为了社会稳定引导企业的AI化改革,地方政府通过智慧城市的建设拉动投资和生产,北京一个区的智慧城市项目动辄数亿,雄安新城将会成为智慧城市的试验场。

前文中分析过国企和央企对于AI的需要程度,但是因为人才团队的不匹配,会遇到比互联网 还尴尬的局面,可能需要服务提供方为其深度定制服务,当下的智能边界如何与企业的真实场景结合,切实做到提升企业效率,达到缩减成本,提高应收的目标。刚刚听了罗胖的2017年跨年演讲,其中提到了传统企业互联网转型的一种新方式,我们都清楚,企业的转型一定是自上而下的,但是传统企业的高层管理团队并不一定了解如何转型,而且传统企业的人才结构和互联网公司差异极大,但是互联网公司为了扩大服务版图,他们有动力通过收购和注资的方式,与企业进行合作,如腾讯注资永辉,阿里注资大量零售商场,而联通的混改也值得期待,一旦成功,这种合作AI 模式将有可能真的实现落地,也就是有专业技术的公司 国企/政府,一方提供认知和技术使用场景,一方应用并提升整体效率。

4、人工智能 教育

现有教育都是大班教学,即使小班也有20多人,学习的节奏都是根据平均人的概念设计,有的学生接受能力差一些或者一部分内容没有学会的时候,就被迫开始学习全新的知识,导致一部分所谓的不聪明的差生早早放弃了学习,就以加减乘除为例,在小学做了大量的无意义的重复计算,当人工智能进去教育领域,那么每个学生可以有一个自己的学习助理,所有课程以游戏化形式展现,每个人的学习进度都可以不同,保证学生学会每一个知识点才进入到下一个环节,未来的教育一定是私人定制化的,基于学生的每一次答题,了解学生的学习进展,并做到精熟教育辅导。

每年高考,考研等考试都会有一种现象-压题,老师凭借多年的教学经验,预测本次考试的范围,而我们都清楚人工智能胜在预测,ai押题将压的更准,帮助学生拿到更好的成绩。笔者乐观的认为,人工智能可以带来全新的学习形式,颠覆现有的源于120年前所定义的教育和考核模式,通过从小学生的学习数据,分钟学生的天赋特长,让教育变得私人定制。

5、人工智能 医疗

医疗领域与人工智能的相关性很高,李彦宏指出,人工智能和大数据在医疗上的发展分为四个层次:医疗O2O智能分诊,人工智能参与的智能问诊,基因分析和精准医疗,基于大数据的新药研发。

推荐阅读:人工智能在医疗产业的五大应用场景及典型案例

四、几个不同视角看人工智能

1、鸟飞派和空气动力学派

吴军博士在混沌研习社提到了鸟飞派的概念非常有意思。

人类的学习行为一般是通过模仿,从飞机的发展史来看,人类最初希望飞到空中,现实世界中我们可以找到的学习目标只有鸟类,最初人类一直在模仿鸟的飞翔方式,通过震动翅膀获取上升动力,但飞机的发明却不是因为模仿小鸟的翅膀震动,而是发现了空气动力学原理,于是我们能让100吨的“铁箱子”飞上天空,可以让飞行速度,完胜鸟类。

我们可以发现,最初的发明往往将现实世界中的事物作为模仿原型,当掌握了其运行原理后,衍生出的产品性能将极大超越最初的模仿原型,而且外形与最初的模仿原型差异极大。我们再来看看人工智能机器人,现在很多人工智能都在模仿人,似乎是有两只腿,两只手臂,一双眼睛,一张嘴才是机器人,其实机器人完全没必要这样,移动可以用履带或轮子,有10几只眼睛,一个屏幕,一个托盘,一个机械手臂,下图是无人车眼中的世界。

2、加速发展的人工智能

人工智能并不是模仿人类大脑的信息存储和信息传递模式,人工智能的进化速度与运算速度和算法优化直接相关,其发展速度类似与指数级发展或加速发展。将我们人类的智力水平比作一个站台,我们人类站在站台上,看着人工智能的火车缓慢驶来,最初可能特别特别慢,用了200年时间让人工智能有了爬行类动物的智能水平,用了100年让人工智能有了哺乳类动物的智能水平,用了50年的时间让人工智能有了黑猩猩的智能水平,用了20年的时间有了3岁小孩的水平。

像这样,这列人工智能的火车持续加速向站台逼近,其智能水平与人类智能差不多的时间可能只有一瞬间,而当人们还没有所察觉时,它已经进化为我们完全无法理解的全新物种。我们人类智商分布满足正态分布,多数人在80到120之间,即使偶尔出现的IQ180的天才我们虽然无法超越但是还可以理解,如果人工智能的智商水平相当于10000呢?它想告诉我们为什么,我们却可能完全听不懂,因为我们的智能水平可能已经天差地别。

3、看不懂的答案

AphaGo对战李世石时发生了一些有趣的场景,AphaGo落子后,人类的专家们这时就会发表评价,机器人就是不行,下了一手臭棋,但是随着棋局的演化,几十步之前的“臭棋”又成了神来之笔的好棋。在AphaGo对战李世石时,专家判断AphaGo处于劣势,但是AphaGo只是在做数学游戏,从后台可以看出,AphaGo的算法显示其一直处于获胜可能更大的一方。大家理解这其中的差距了吗?人类百年的围棋文化被全面超越了,因为只有整体性超越,才会出现这种情况,对方下了一手好棋我们竟然看不出来,看不懂其中深意。

著名影星安吉丽娜朱莉因为基因检测其得乳腺癌的概率超过90%,于是她便切除了自己的乳腺;举一个我们身边的例子,高德地图导航,当你希望从A点开车到B点时,高德推荐了你几最优路线,结果你不信,走了自己熟悉的路线,结果特别堵,下一次你会不会相信高德导航呢,一旦相信了之后,你发现真的没那么堵了,以后你是否就放弃了自己的自由意志,而选择相信高德地图了呢。

未来会有大量场景,AI产品给用户一个行为建议,你可能不知道她是如何得出这个建议的,因为包含了大量的复杂运算,即使告诉你普通人也无法理解,也就是一个最优的但是不懂的答案。

4、有一种超越是碾压式的

AphaGo战胜李世石引起了全球关注,大家都在热议4:1的比分,而短短几周后,AphaMaster以60:0在围棋领域横扫了围棋界,其意义是在围棋这个细分领域内,机器已经完成了对人类的碾压式优生,超越了人类在该领域数百年的智慧积累,如果你以为这就是结束那就错了,google有开发除了AphaZero,AphaGo和AphaMaster是根据人类的历史棋谱来学习围棋,而AphaZero是根据游戏规则自我博弈学习,你知道结果如何吗?AphaZero对战AphaMaster,比分是100:0,绝对的碾压式超越。

5、时刻进化,无法掌握

AphaGo这类人工智能的恐怖之处在于其无时无刻不在进化,人类需要休息,需要社交,需要思考,需要沉淀,而且碳基生物的进化需要数万年,而且是通过两性繁殖,促进基因突变,优胜劣汰,这种进化速度与硅基的人工智能的进化速度相比如同云泥,而人工智能的提升在其运算层面通过计算完成,今天的AphaGo和昨天的AphaGo完全不同,今天的AphaGo可能输了,但是人类回去休息后,它默默的一晚上和自己下了300万盘棋,第二天人类棋手面对的已经是一个全新的AphaGo。

6、傲慢的人类

凯文凯利在必然中曾经有过一段关于普通人理解人工智能的7个过程,非常有趣,分享给大家。

1、机器人干不了我的工作->

2、好吧,它会许多事情,但我做的事情它不一定都会->

3、好吧,我做的事情它都会,但它常常出故障,这时需要我来处理->

4、好吧,它干常规工作时不出错,但是我需要训练它学习新任务->

5、好吧,就让它做我原来的工作吧,那工作本来就不是人该干的->

6、哇,机器人正在干我以前做的工作,我的新工作不仅好玩多了,工资还高->

7、真高兴,机器人绝对干不了我现在做的事情。

人往往短期高估自己的能力,长期低估科技的发展速度

P.S. 人工智能在2B类服务中的核心价值是什么?

从本质上来说,企业如同生物一般,企业生存的经济环境和自然环境也很类似,企业的生存规则适用与生物进化论-物竞天择,适者生存,企业为了生存要不断的去适应技术变革和政策调整,而竞争力体现在一个企业的资源占有情况和内部协作效率。政府和国企普遍占有资源优势,而民营企业则只能通过持续的追求效率来提升其生存能力,互联网作为一种连接技术,整体提升了产生/服务与人的连接效率,而人工智能的到来将进一步提升底层效率。

  • AI可以让企业缩减人工成本,提升推广效率和服务效率;
  • AI可以让企业熟知用户的所思所想所求,提升产品和服务投放准确率;
  • AI可以让企业运转更高效,缩短内部流程,让企业的服务更顺畅高效等。

对于传统企业的AI转型,我们可以参考大众点评与传统零售业的合作模式,将新技术视作一种工具,以服务采购的方式购买。

笔者感觉,未来可能需要一类服务咨询类产品专家,他清楚当下人工智能的边界,已有的产品形态,同时,他还可以快速梳理企业内部流程,并将AI产品或服务以有效的方式植入到企业中,有些类似于技术咨询 落地 持续跟进,当然,类似于BAT这类公司也可以做知识服务输出,如同金融公司努力做用户理财教育一样,AI公司也需要做垂直服务的AI化教育,设计的产品需要真实的提升企业效率。

- Posted in: AI

- Tags: ,

2 条评论 ,7,312 次阅读

发表评论

  1. wei

    您好。能分享一下这些思维导图吗

    • @wei 没有原图哦,可以网上搜搜。

Top