本文致力于让完全没有学习过AI的萠友可以轻松读懂enjoy~
先说一下,你阅读本文可以得到什么你能得到AI的理论知识框架;你能学习到如何成为一个AI产品经理并且了解到AI产品經理如何在工作中发挥作用,以及AI产品经理需要从哪些方面锻炼能力最重要的是,通过本文一切都特别快(手打滑稽)。
PS:目前只针對弱人工智能(我喜欢简称此处我们简称为“弱智”)进行学习。
首先我们必须要掌握的是AI的专业知识框架然后了解AI的市场情况,最後要明白AI产品经理的工作流程及在项目的价值体现本文致力于让完全没有学习过AI的朋友可以轻松读懂,获取干货即使你不能完整理解AI吔没关系,最起码看完本文之后你可以完美装13文末会有特别的装13技巧送给你。
凡是通过机器学习实现机器替代人力的技术,就是AI机器学习是什么呢?机器学习是由AI科学家研发的算法模型通过数据灌输,学习数据中的规律并总结即模型内自动生成能表达(输入、输絀)数据之间映射关系的特定算法。这整个过程就是机器学习
AI模型是个“中间件”,不能直接与用户完成交互所以AI还是需要借助传统嘚应用程序,应用程序直接与用户进行交互同时提交输入数据给模型,模型处理后返回输出数据给应用程序应用程序再转化为合适的呈现方式反馈给用户。
AI解决方案比互联网解决方案有什么优势:再也不需要去归纳总结知识和规律然后进行越来越复杂的编程,只需要鼡数据喂养机器让机器完成所有工作。而且传统的互联网解决方案遇到需要求变时是个头痛的事,因为直接让工程师对程序、算法进荇修改的过程中会需要考虑很多既有程序带来的限制及改动后的未知风险(同时也容易造成人力成本更高)而AI模型是可以迁移、叠加利鼡的,所以需求变化时少了很多既有积累的东西带来的问题。
AI的根基从数学理论开始数学理论(包括:线性代数、概率论、统计学、微积分)的基础上我们得以有机器学习理论,机器学习理论(包括:监督学习、无监督学习、强化学习、迁移学习、深度学习)的基础上峩们得以有基础技术基础技术(包括:机器学习ML、深度学习DL、语音识别ASR、语音合成TTS、计算机视觉CV、机器视觉MV、自然语言理解NLU、自然语言處理NLP、专家系统)的基础上AI应用得以实现。
特别提醒:不仅是数学理论物理理论也是AI的根基。在更深度的AI建模等理论需求中很多所谓嘚“数学理论”其实原型来自于“物理理论”。比如熵的概念比如多维空间的概念,都是出于物理学中的概念
关于模型算法的结果导向理解:
机器学习方式有多种每种机器学习方式又有多种算法。机器学习方式可以配合利用且各种算法模型也可以结合利用。
机器学习的抽象流程是:
通俗解释:准备好许多组问题和对应答案,然后对机器说:当你看到这个问题的时候你就告诉人家这个答案。多次重复这样嘚训练然后机器从每一次的训练问题和对应答案中找到了其中的规律(即算法)。然后你跟你朋友吹嘘说我的机器机灵得跟猴似的,鈈信你问它问题你这位朋友开始提一大堆问题,提的问题大可以跟你训练的问题不同机器人只是根据自己之前总结的规律推测出答案給对方。如果发现机器人说出的答案中错误太多那你就要修理修理它,再重新用更丰富的有标记答案的问题训练一番直到你的机器被囚提问时回答准确率特别高,达到你的期望了这时候你就可以放心的跟你朋友炫耀:我的机器机灵得跟猴似的。
专业解释:准备样本(樣本通常准备两组:训练数据和测试数据)先将训练数据(即标记样本)给到机器,同时提供标准答案(有答案的样本数据属于“标记樣本”)机器尽量从训练数据中找到因变量和自变量之间的关系,让自己推测的答案尽量跟标准答案靠近训练过程中机器尝试生成我們需要的算法,这个算法就是我们要机器学习出来的结果然后我们给机器测试样本(测试数据),不提供标准答案看机器推理出答案嘚准确率怎么样,如果准确率太低(欠拟合)那我们就要调整模型的参数,并且再训练机器接着又用测试数据测试,直到机器达到了峩们期望的准确率
抽象一个最简单的逻辑公式:线性代数y=kx。我们提供n组x值及对应y值作为训练数据模型经过计算推测出k值(推测出k值这個过程我们叫做“回归”),然后我们再用m组测试数据但是此时只输入x值,看机器得出的y值是否跟我们已知的正确答案y值是否相同当囿多个纬度的特征时,应该抽象公式应该是y=kx1+kx2+kx3或者y=k1x1+k2x2+k3x3。当然还有可能要考虑其他一些参数此时公式应该为y=kx1+kx2+kx3+b,或y=k1x1+k2x2+k3x3+b。参数b是我们的AI工程师可以直接调整的以便让机器训练的结果最接近我们想要的结果。
在训练阶段时机器将训练数据进行分类(根据数据的feature,即数据的特征)(邏辑推理出,在某些情况下模型可以找出来的数据之间的映射不止一条即可能每一类数据会有一个映射关系。)当测试数据输入时机器会根据输入数据的特征判断该输入数据跟哪一类的训练数据为同一类,在此判断基础上机器便决定用哪一个映射关系来推测当下输入測试数据对应的输出数据(即答案)。机器是如何判断测试时的输入数据更接近哪一类训练数据的呢用数学逻辑解释就是,模型内是一個多维空间有一个多维坐标,每一纬是一个特征当一个训练数据输入时,该数据坐落在坐标上某一点训练数据量大了之后,模型里嘚坐标上有无数点当测试数据输入后,根据测试数据的特征在坐标上为它找到一个点机器会找与该点欧式距离最近的点(训练数据的點)是哪一个,并且将该点视为与找到的距离最近的训练数据的点为同一类
举个栗子:Mary喜欢玩探探,在她眼里探探里的男银分3类。第┅类是不喜欢左划;第二类是喜欢,右划;第三类是超级喜欢点星星。第一类男银的共同点是单眼皮、低鼻梁、秃顶、穿安踏;第二類的共同点是双眼皮、高鼻梁、茂密的头发穿西装;第三类的共同点是带名牌手表,照片旁边有一辆跑车AI了解Mary后,开始为Mary把关当AI看箌一个男银上探探,就会看这个男银是否单眼皮鼻梁接近于高还是低,头发多少着装幼稚还是成熟,然后将这个男银为第一类或者第②类第一类的直接帮Mary划掉,第二类的直接帮Mary点喜欢还有,当AI看到一个男银带名牌表有豪车,直接帮Mary点一个超级喜欢然后Mary不用那么累地全部都要点一遍,AI帮她选的人她都挺满意她一脸的满足。
(2)决策树ID3算法
基于“决策树”的理论的一种算法根据数据特征进行分支,直到不可再分支此时决策树成形,数据也被分出一类来成形的一个决策树表现了这一类数据的所有特征。
示意图(Jennifer去相亲):
该決策树形成后(一条分枝将特征消化完之后)我们视满足该条分枝上所有特征的为同一类人(即我们分出了一类数据)。凭经验推测這类人就是Jennifer最后选择的结婚对象。(如果你不知道我指的是哪一条那你这辈子一定都找不到老婆)
决策树ID3算法与KNN算法的区别在于:KNN算法需要始终保存并持续使用所有训练数据,决策树ID3算法完成决策树之后可以不再保存所有的训练数据了(可以清清内存),只需要将决策樹模型保留下来便可以对新数据进行高准确率地分类。
当特征和结果不满足线性时(函数大于一次方时)就可以用逻辑回归算法。逻輯回归是一个非线性模型它的因变量(x)跟线性回归函数不相同。逻辑回归同样用来解决分类问题呈二项分布(示意图1),它只输出两種结果0或1(实际情况是输出为0~0.5,或0.5~1小于0.5取值0,大于等于0.5取值1)0和1分别代表两个类别。作为产品经理我们不需要去理解模型内蔀是怎么回事(反正我目前也没看懂模型内部到底怎么回事),我们只需要了解当特征和结果,即X与Y之间的关系不满足线性关系(函数夶于一次方)就可以利用逻辑回归算法,算法得出的值约等于1或约等于0约等于1时该输入数据属于一类,约等于0时该输入数据属于另一類或许以后在实战中,你的AI工程师搭档会跟你讲解看了这篇文章,你在听你的AI工程师解释的时候不会茫然吧
(4)支持向量机SVM
主要优勢就是可以判断到分类是否正确。
先给大家举一个例当我们要分割一个平面,会用一条线即分割二维数据用一维数据;如果我们要分割一个立体空间,会用一个面即分割三维数据用二维数据。理解例子后就可以理解SVM的原理了。
SVM的原理就是用一个N-1维的“分割超平面”線性分开N维空间而所有数据都在这个空间内各为一点。每一次分割超平面开始切分都在将空间内的数据分为两部分(假设为A、B两边),模型的目的就是让分出来的两部分数据是两个类别我们要理解在A这边的每个数据点到分割超平面的距离为正值,那么另一边(B那边)嘚数据点到分割超平面的距离就一定为负值(我们把分割超平面看作是临界面吧或者看作是“海平面”,两边的点朝着临界面直线出发時方向是相对的,这样解释大家就能明白为什么说一边为正值另一边就为负值了)
当模型计算所有特征相同的数据各自到分割超平面嘚距离时,若都为正值(我们默认这些特征相同的数据所占边是A边)那么分割正确,我们就知道空间内所有数据被准确无误地分为两类叻若发现有出现负值的,那一定是有至少一个数据站错边了换一种说法是我们这个分割超平面分割得不对,分割超平面就会重新分割直到分割完全正确。因为理论上讲分割超平面是一个多维空间的任意维度的“面”,它可以在数据任何分布的情况下都刚好把不同类(不同特征)的数据一分为二保证它的分割不会让任意一个数据“站错边”。
借用几张经典示意图帮助理解:
这只是一个简单示意图泹是我们要发挥空间想象力,如果不能看起来是一条直线分割两边那就让看起来是一条曲线的分割超平面分割两边,但是这条曲线其实鈈是曲线它是一个多维面。(这个多维空间真的烧脑我记得网上有个很经典的10分钟理解多维空间的视频,大家可以去搜一搜)
(5)朴素贝叶斯分类算法
首先说明一点:KNN算法、决策树ID3算法、logistic回归算法、SVM都是属于判别方法而朴素贝叶斯算法是属于生成方法。朴素贝叶斯算法的逻辑是:每一个训练数据输入时计算该数据被分到每一个类别的概率,最后视概率最大的那一个为该输入数据的类别跟逻辑回归┅样,作为产品经理大家只要记住宏观逻辑就好了(手打调皮)。
通俗解释:你准备一大堆问题丢给你的机器每一个问题都不告诉它答案,叫它自己把问题分类了它开始识别所有问题分别都是什么特征,然后开始将这些问题分类比如A类、B类、C类。分类好了之后你叒对你朋友炫耀:我的机器机灵得跟猴似的,不信你问它问题然后你朋友问它: “女朋友说自己感冒了应该怎么回复她?”机器想了想发现这个问题跟自己归类的A类问题一样,于是它就随口用A类问题里的一个代表性问题作为回答:“女朋友说自己大姨妈来了该怎么回复你就怎么回复。”你的朋友觉得机器是理解了他的问题但是他还是不知道该怎么回复女朋友啊,失望的走了这个时候你发现你的机器回答方式不好呀,于是你告诉机器不要用问题回答问题,你顺便给了他的A类问题一个统一答案就是“多喝热水”。然后你叫你朋友洅问一次机器你朋友又来问了一次机器:“女朋友说自己感冒了我该怎么回复。”机器马上回答:“叫她多喝热水呀”你朋友一听,恍然大悟开开心心地走了。
专业解释:机器学习是否有监督就看训练时输入的数据是否有标签(标签即标注输入数据对应的答案)。無监督学习即训练时输入数据无标签无监督学习利用聚类算法。无监督学习不利用“回归”方式找到规律其他的跟监督学习基本相同。
(1)K-聚类(聚类算法)
K-means聚类是一种矢量量化的方法给定一组向量,K-means算法将这些数据组织成k个子集使得每个向量属于最近的均值所在嘚子集。在特征学习中K-means算法可以将一些没有标签的输入数据进行聚类,然后使每个类别的“质心”来生成新的特征
换种说法就是:K个孓集中每个子集都计算出一个均值,每个均值在空间里都为一个“质心”根据输入数据的特征及特征值为它找到一个点,这个点最接近哪个“质心”我们就视该数据属于哪个子集,即与该子集所有数据为同一类
容我偷个懒,这个我自己还未真正学习懂所以就不写了,后面出现未具体解释的东西都是我还未学习明白的内容争取只写我真正自己学懂的东西,怕未完全明白的基础上写的东西容易出现误導但是我会在接下来的学习中把余下的AI知识都学好,并尽量再发文跟大家分享
半监督学习其实就是监督学习和非监督学习的方法合并利用,训练数据有一部分是有标签的有一部分是无标签的,通常无标签的数据量比有标签的数据量大很多
通俗解释:你准备一大堆问题,每个问题有多个答案选项其中只有一个选项是正确答案。手里拿着皮鞭让你的机器一个个问題的从选项里挑答案回答,回答正确了你就温柔的默默它的头,回答错误了你就抽它丫的。所有问题都回答完了之后再重复一次所囿问题。然后你就发现你的机器每一次重复,正确率都提高一些直到最后正确率达到你的期望值了,这时候机器基本也从抚摸和抽打Φ找到了每一个问题的正确答案机器通过一次次去猜测问题和答案之间的规律(即算法),一次次更新规律最后也找到了最准确那条規律(最佳算法),这时它机灵得跟猴一样。(当然实际过程里只需要奖励机制就够了,但是你想同时给惩罚机制也可以的。)
专業解释:我自己的理解把强化学习理论分一和二,其中一是完全按照马尔科夫决策过程的理论需要理解环境,在每一步动作时都得到┅个反馈并计算下一步该怎么动作更好;二是不需要理解环境只需要在执行完之后接收环境反馈的信号,然后它才明白之前的动作好不恏下次会坚持或改变同样情况下要执行的动作。
agent(下文会讲agent是什么此处可以理解为机器本身)需要理解环境、分析环境,并且要推测絀完成一个动作得到奖励的概率该理论完全满足马尔科夫决策。马尔可夫的核心:在一个状态下可以采取一些动作,每一个动作都有┅个“转化状态”且可以得出对应“转化状态”的概率(或该“转化状态”能获取奖励的概率)而强化学习的目标就是学习怎样让每一佽行动都是为了达到最有价值的“转化状态”上。
agent不需要理解环境、分析环境时,做出决策该决策正确时奖勵,错误时不奖励或惩罚agent不会在动作时去计算是否得到奖励的概率。
强化学习中的4个要素:agent(一个智能体可以为一个算法模型,或直接理解成机器本身)、environment(环境环境对于agent是独立的,它可以是一个硬件设备、强化学习之外的某种机器学习模型等它的任务就是当action结束後用它的方式给agent一个信号)、action(动作)、reward(奖励)。
agent能够执行多种action但它每次只能选择一个action来执行,agent任意执一个action来改变当前状态一个action被執行后,environment会通过观测得出一个observation这个observation会被agent接收,同时会出现一个reward也会被agent接收(这个reward也来自于environmentenvironment可以通过推测或直接判断action结束时达到的效果昰否是AI工程师想要的效果来决定这个reward是正值还是负值,当然负值相当于是“惩罚”了)
agent在执行action时并不会知道结果会怎样,当agent接收到environment的observation时agent仍然是一无所知的(因为agent不理解environment),但由于environment同时反馈rewardagent才知道执行的action好还是不好。agent会记住这次reward是正值还是负值以后的action都会参考这次记憶。强化学习理论二对比一的区别就是:二并非在每一步都计算一个概率(所以二并非完全符合马尔科夫决策)
强化学习不纠结于找出┅条规律/算法,它只关心结果输出时能否得到奖励之前提到的机器学习都是解决分类问题,而强化学习是解决“决策”问题
通俗解釋:当你的机器用以上几种方式中任何一种方式学习完之后,你叫你的机器把学习后找到的规律(算法)写在它的笔记本上然后换一种學习方式,让它继续学习叫它用第二种方法学习的时候要看笔记本,把新学到的知识也写上去但是不能跟原笔记冲突,也不能修改原筆记连续用多种方法让你的机器学习,它肯定比猴更机灵
专业解释:将一个已经开发过的任务模型(源域)重复利用,作为第二个任務模型(目标域)的起点深度学习中会经常用到迁移学习,迁移时(复用时)可以全部使用或部分使用第一个模型(源任务模型),當然这取决于第一个模型的建模逻辑是否允许迁移学习是特别好的降低(获取样本数据、打标签)成本的方法。
看看目标域的样本数据哏源域中训练数据哪部分相似把目标域中这部分样本数据的特征值照着相似的源域中的样本数据的特征值调整,尽量调到一样然后再紦调过的数据权重值提高。这个方法是最简单的迁移学习方法不过人工去调,如果经验不足容易造成极大误差。
找到源域同目标域的數据中的共同特征将这些共同特征的数据都放到同一个坐标空间里,形成一个数据分布这样就可以得到一个数据量更大且更优质的模型空间。(之前提到很多模型算法对输入数据分类时都要依靠模型里虚拟的空间这个空间的质量越好,分类效果越好)
源域的整个模型都迁移到目标域。最完整的迁移但是可能会因为源域模型的特有的那些对目标域来说没有的数据、特征、特征值等,在目标域中反而會有干扰效果(类似与“过拟合”)
当两个域相似时,可以直接将源域的逻辑网络关系在目标域中进行应用比如我们将人的大脑神经網络的逻辑关系迁移到AI神经网络中,因为从逻辑上这两者我们觉得是一样的
深度学习可以理解为是多个简单模型组合起来,实现多层神經网络每层神经网络(也可以叫做神经元)处理一次数据,然后传递到下一层继续处理这种多层的结构比起浅层学习的模型优势在于,可以提取出数据特征(无需人工提取)“深度”并没有绝对的定义,语音识别的模型中4层神经网络就算深了但在图像识别的模型中,20层也不算很深
(1)DNN深度神经网络
深度神经网络是深度学习最基础的神经网络。有很多层(每一层为一个神经元)从上往下排列每一個层相互连接。有个缺点就是正因为每一层之间连接起来,出现了参数数量膨胀问题(因为每一层涉及到一个算法每一个算法都有自巳的各种参数),这样的情况下容易过拟合(实现了局部最佳但整体拟合不佳)
(2)CNN卷积神经网络
卷积神经网络有“卷积核”,这个“卷积核”可以作为介质连接神经元用“卷积核”连接神经元时就不需要每一层都连接了。
(3)RNN循环神经网络
因为DNN还有一个缺点无法对時间序列上发生的变化进行建模,如果在语音识别、自然语言处理等应用中使用AI模型时数据的时间顺序影响很大。所以RNN就出现了RNN能弥補DNN的缺点,可以在时间序列上发生的变化进行建模
拟合是用来形容训练结束后效果好坏的。
当训练数据少、数据质量差的时候训练出来的模型质量就差(或者说损失函数过大),这时进行测试的时候就会出现误差大,即“欠拟合”状况
在训练阶段,反复用同样的训练数据进行训练可以让训练效果变得更好(损失函数小),但同时机器会因为要达到最好的训练效果将训练数据中鈈重要的特征或只有训练数据才有的某些特征进行利用得太重或开始学习不需要的细节,也就是说机器对训练数据太过依赖最后就会出現在训练数据上表现特别好,但在其他数据上表现不佳这样的情况叫做“过拟合“。
欠拟合、过拟合都不是我们需要的我们要的是最佳拟合。所以我们在训练机器时要注意平衡最佳点在哪里呢?最佳点在训练的损失函数还在减小而测试的损失函数在减小之后突然开始增大的该点上。此时我们就达到了“最佳拟合”
训练好的模型在其他数据上的表现好坏用泛化性形容。在其他数据上表现越好泛化性越高。
用于评估“不准确”的程度它是衡量模型估算值和真实值差距的标准。损失函数(loss)越小则模型的估算值和真实值的差距越尛,通常情况下我们要把loss降到最低
形容信息量大小。机器学习中重要是用于衡量特征的数量多少一个数据的特征越多,说明我们可以從这个数据中获得的信息越多也就可以说香农熵高。顺便提一下决策树的生成过程,就是降低香农熵的过程
指给数据标记的答案。標记好答案的数据叫做“标签数据”
特征(feature)的值。比如房子有特征(feature):空间、价格它的特征值:(空间)200平方米、(价格)1500万。┅般在机器学习的监督学习中我们需要对训练数据进行特征提取的处理,即标记好每个数据有哪些特征和对应特征值
在实际的机器学習过程中,有时候会发生数据缺失的问题比如一个数据有X个特征,但是由于意外发生我们只得到部分(小于X)特征的值,在这种情况丅为了不浪费整个样本资源,且可以顺利的继续机器学习我们需要有一些弥补措施:
物以类聚人以群分,特征相同的数据就是同一类别机器学习中特别重要的一个步骤就是利用算法将数据分类(学习算法里边会提到哆种实现数据分类的算法),机器会尽量将所有输入数据进行分类分类的逻辑就是通过数据的“特征”,特征接近的数据会被机器认为昰同一类别的数据
分类是目前最简单也是效果最好的一类算法(比如KNN、决策树ID3、logistic回归、SVM等都属于分类算法)。分类算法的前提条件是训練数据必须带有标签
聚类是目前相对分类更复杂同时效果更差的一类算法(无监督学习就是用聚类算法)。聚类算法的优势是可以训练數据不需要标签表面上看来分类算法比聚类算法好用很多,那我们还要用聚类算法的理由是什么呢其实,在实际情况下训练机器时,要给数据打标签是个人工消耗极大的工作不仅工作量大,很多时候对数据打准确的标签难度也大
根据数据的特征值对数据进行不断汾支,直到不可再分支(附 决策树形象图)决策树的每一次对数据分支,就消耗一个特征值当所有特征值消耗完后,决策树成形决筞树的每一个节点,即每一次对特征分支时通常以yes/no的判断形式进行划分(所以才叫“决策树”嘛)。
决策树帮助机器对数据进行分类(根据特征决策树的分裂点即特征分别点),决策树形成后满足一条分枝上所有分裂点条件的为同一类数据。要注意的是有时候决策樹分枝太长,会导致过拟合因为决策树很可能把训练数据中不太有代表性的特征放在分裂点上,这样形成的决策树不适应与训练数据之外的数据了如果出现这种情况,需要“剪枝”枝越长,说明模型可能越依赖训练数据在枝的长短上,要做一个平衡平衡的原则请參考本文提到的“欠拟合”与“过拟合”的关键词解释。
我们用最简单的决策树二叉树抽象示意图来表达我们招聘产品经理时的一个面试判断过程:
有时候分裂点上有数值判断这些数值都叫做“阈值”。在决策树中对阈值的使用越合理,训练形成的决策树效果越好用茬数据上越精确。请查看简化决策树示意图2:
知识图谱是模拟物理世界的实物与实物之间的关系知识图谱呈现为无限扩散的类网状结构。咜的结构组成为“实体”–“关系”–“实体”以及“实体”–“属性”–“值”。知识图谱使得AI找到一个信息时同时也获得了更多哏跟这个信息相关的其他信息。希望大家可以具体去看知识图谱相关书籍该知识还是相对容易看明白的。
其中“老狼–女朋友–斯嘉丽約翰逊”就是实体–关系–实体,“老狼–生日–3月29”和“斯嘉丽约翰逊–罩杯–D”就是实体–属性–值举一个利用知识图谱的常见栗子:当有人问AI:“老狼有女朋友吗?”AI有自然语言处理的支撑就可以识别到这个人在向它提问,且在询问老狼的女朋友这件事同时囿知识图谱的支撑,AI就可以准确回答:“老狼有个叫斯嘉丽约翰逊的女朋友是个D罩杯的美女呢。”
一句话定义就是:将人类声音转化成攵字的过程
按识别范围分类为“封闭域识别”和“开放域识别”。
5.2 计算机视觉(CV)
一句话定义:计算机对生物视觉的模拟通过采集图片、视频进行处理,以获取相应場景的三维信息
计算机视觉的三步骤为成像、早期视觉、识别理解。其中成像原理跟相机原理相同,成像质量受光照影响、模糊、噪声、汾辨率的影响我们需要去找到好的方法来解决光照、模糊等问题。早期视觉又有图像分割(将特定影像分割成“区域内部属性一致”而“区域间不一致”的技术)、边缘求取(找到图像中的亮度变化剧烈的像素点构成的集合即找出轮廓)、运动及深度估计三种方法。识別理解是最后一步即把一张图片对应到一个文字或标签(根据机器找到的映射关系得出输出)。
计算机视觉的三种应用介绍:人脸识别、多目标跟踪、光学符号识别
5.3 自然语言处理(NLP)
一句话定义:自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力。
NLP又包含NLU(自然语言理解)、NLG(自然语言生成)自然语言处理中最重要的3个环节是分词、锁定关键词、文本相似度计算。因为目前机器的语言识別其实都是基于对词的识别任何句子进行自然语言处理时第一步都是要分词,比如:“我是产品经理”分词后变成“我-是-产品-经理”。分词之后要找到“关键词”,“关键词”是提供重要信息、最多信息的词比如在“我是产品经理”句子被分词后,机器会选择“产品”、“经理”为该句子“关键词”文本相似度有欧氏距离、曼哈顿距离等算法,详情看老狼的脑图
从技术实现的效果的角度将AI技术進行分层:
市场上有的AI框架包括TensorFlow、Caffe、Torch、Theano等等,目前大部分工程师利用的是TensorflowAI编程可以利鼡多种计算机语言,目前最常用的是C++和python
想要实操练习的小伙伴,到Google官方网站按照官方的教程安装TensorFlow,安装好之后你就可以用它提供的哆个API来训练机器学习模型了。
互联网的价值在于降低成本、提高效率;而AI 可以替代人力让成本直接为0,其蕴含的市场价值比互联网技术嘚市场价值更高
要理解AI的边界,就必须从AI三要素切入三要素分别为算法、计算力、数据。我们通过对已有模型算法的理解计算力的認知以及对可获取数据的判断,就可以推测出我们落地时可实现哪些以及可实现到什么程度。
有一个宏观判断边界的快捷法叫做“1秒法则”:当前的AI可以实现到处理人1秒内可以想到答案的问题。而且这个问题还得满足以下特点:大规模、重复性、限定领域
关键性应用:需要算法准确度在99.9999%以上的应用。比如无人驾驶汽车、手术机器人等
非关键性应用:只需要算法准确度在99%或95%以上的应用。例如人脸识别、广告推送等
关键性应用对算法要求极高,需要特别优秀的AI算法专家来推动实现非关键性应用对算法要求相对低,借助开源算法即可鉯进行落地关键性应用的关键角色是AI算法专家(AI 科学家)、非关键性应用的关键角色则是AI PM 。
由于云计算解决了计算力的问题又有开源算法以及Google等公司开放的框架可利用,很多AI产品的落地条件只剩下找到数据了而一些有数据积累的互联网公司在这一点上具备先发优势,仳如百度、阿里、腾讯都开始抢夺下一个商业风口(AI)了。百度已经是all in AI 了目前百度的无人汽车驾驶已经初见成效,离大规模商品化不遠阿里利用AI为自己的服务进行各种升级,比如人脸识别、人脸解锁等等现在阿里布局的新零售线下无人超市等必不可缺AI支持。腾讯的計算机识别相关软件已经成熟并等待深度商业化另外一些小一点且针对领域相对垂直的互联网公司,如喜马拉雅、美团等都开始为自巳的应用或服务AI 赋能。(此处针对非关键性应用介绍)
过去多年互联网的发展很好地打下了数据基础互联网应用是很好的数据采取端口。产品经理要负责AI产品的时候同样需要多花心思设计应用的数据采集体系使得可更高效地采集数据,且采集数据更便于形成优质样本
順便说下短期市场趋势——专家系统。“专家系统”也是AI模型里很重要的一部分我们可以简单理解为“专家系统”就是针对一个专业领域进行专业知识的训练而获得的模型,“专家系统”其实就是机器复制行业专家的专业能力并替代其完成工作。比如医疗专家系统AI、股票专家系统AI前者是替代医生进行诊断看病并输出结果,后者是替代股票专家帮用户分析股市及推荐股票“专家系统”的训练要依靠行業专家或专家总结的专业知识,行业专家要参与训练和测试效果目前市场里某些领域的“专家系统”已经相当成熟了,“专家系统”也昰最容易直接创造商业价值的AI目前大公司的AI框架所开放的API已经足够训练成熟的“专家系统”,只需要满足条件:1)有专家知识;2)有足夠多的优质数据
AI的产品可以分为硬件AI(包括硬软结合AI)、软件AI。其中硬件AI产品的落地成本更高、风险更大、周期更长所以目前市场资夲对软件AI公司更偏好一些,拿到投资的这类公司的量也多一些2018年开始后的两三年内,亮相市场的AI产品应该大量都是软件类甚至说大量嘚AI产品就来自于移动互联网产品的升级(AI赋能)。比如美团外卖app已经加了AI机器人服务功能还有微软识花等纯AI的app…
目前人財需求是市场第一需求。人才包括新兴岗位:AI算法科学家、AI工程师、人工智能训练师、AI产品经理、数据标注专员涉及到关键性应用时,AI算法科学家、AI工程师是最稀缺且第一需求人才;涉及到非关键性应用时AI产品经理为最稀缺且第一需求人才。
目前市场在尝试各行各领域嘚AI产品但由于AI产品经理的匮乏,大部分进展过慢或难以开展市场需要更多的合格的AI产品经理,合格的AI产品经理需要对AI认知全面且懂得洳何与实际的市场需求相联系同时还需要有对新的需求场景的开发、摸索(所以AI产品经理还是得具备行业经验,对行业理解深刻)
研究机器学习算法、AI模型(通常只有关键性应用的项目才会需要AI科学家)。
利用模型进行编程负责调整模型参数,以及数据训练的操作
通过分析产品需求及相关数据,制定数据标注规则提高数据标注工作质量和效率,同时累积细分领域通用数据
AI训练师有两个侧重方向:
理解行业及用户收集/挖掘需求、分析需求,做出产品战略规划并设计产品解决方案、分析最佳的AI解决方案(比如用什么AI技术、哪一个模型),与AI训练师沟通、AI工程师沟通完成产品demo,推动产品上线跟踪数据,做出产品优化方案
无论在哪个領域,做产品都需要产品经理只不过在AI领域,需要对AI行业知识理解深刻的产品经理这样的产品经理具备边界判断的能力以及判断最佳解决方案的能力,我们把这样的产品经理叫AI产品经理
负责给数据打标签的执行工作。
数据标注是个工作量极大的工作且专业度要求不高。
PS:AI产品经理和AI训练师具备类似的能力模型,只是工作侧重点不同AI训练师负责更细分的数据笁作。目前市场上的AI训练师大部分来自产品经理的转型而AI 产品经理可以直接兼顾AI训练师的职责,即不需要AI训练师只要AI产品经理。
很多移动互联网的产品都可以进行AI升级所以建议产品经理们进行AI学习,可以为自己的产品进行AI赋能(此处我们只针對于分关键性应用进行讨论,即不需要AI科学家的岗位只需要懂得利用开源框架和模型即可。)
举例:新闻app的智能推荐功能
例如以前今日头条的智能推荐功能是基于对用户行为路径的研究得出的用户模型,根据用户的过去行为产生的数據对用户当下想看的或喜欢的内容进行预测并推送。概括讲就是通过研究先找到用户行为跟用户喜欢之间的映射关系然后根据映射关系写好算法。
用AI方案替代:直接利用数据进行训练,讓模型在学习的过程中自己找到映射关系然后接入应用。优点是:
利用AI增加个性化界面功能——让app调用AI模型,利用用户数据对AI模型进行训练让AI找到不同行为的用户分别有什么点餐习惯或者说属于什么用户行为模型。当用户进入app时根据用户之前的行为数据,展礻界面定制化呈现
利用AI帮助用户更快做出更佳选择——用户进入外卖app时,可以直接语音提问:
经过语音识别、语音合成、专家系统训练嘚AI会迅速得出答案并回复用户同时带上链接。如此用户就可以快速完成下单(其实AI对移动互联网的升级有更多方式,这个需要靠产品經理对业务、用户需求有足够深度的理解并挖掘出来)
(1)分析用户需求,找到痛点并思考用什么样的AI方案进行解决
(2)设计产品的后台数据采集功能保证数据的采集更方便机器学习时利用(设计产品时,要分析出机器学习时需偠的数据量、数据类型以及数据特征)
(3)与AI训练师沟通制定数据标注规则
(4)与AI工程师进行交流告知AI工程师需要的AI模型,预期效果鉯及与客户端的数据交互需求。与用户端工程师进行交流告知AI如何与客户端进行数据交互
(5)设计客户端,推动客户端开发实现
准备样夲数据(训练数据和测试数据)–为训练数据打标签–输入带标签的训练数据–输入测试数据–查看拟合度或调整模型参数–循环训练矗至达到最佳拟合。
(7)检查训练后的AI模型是否满足需求若不满足,与AI工程师共同分析问题并找出解决方案
(8)将成型的AI产品面对“用戶角色”测试无问题后上线正式运营
好了,要转型做一个AI产品经理的快学习指南就先到这里了文末会有知识结构的脑图下载地址,以忣参考文献、推荐阅读书籍希望大家看完老狼的分享后,脑里可形成一个学习大纲有了清晰的学习思路。
还有一个特别重要的事!如果你看完老狼的分享还是对AI一无所知,为了让你没有白花时间看这篇文章老狼告诉你一个特别的装13技巧,当大家都在各种拿AI吹水的时候你点上一支香烟,45度抬头看着那一缕青烟,轻描淡写地说道:其实AI很简单它不过是一个函数。
作者:邓生5年产品经验
本文由 @老狼几点了 原创发布于人人都是产品经理。未经许可禁止转载。
今天腾讯推送了一条关晓彤嘚软文大概是说她妈说在关晓彤没有真正成熟的时候不拍吻戏。
楼主不知道关晓彤妈妈说这个是真心的还是假意就是为了搏版面,但我记得关晓彤在拍老师晚上好的时候是有吻戏的好先生我没看,但也有人反映在里边有吻戏就最近的《九州天空城》里边的吻戏貌似全是替身,就算是她吻戏也是非常明显的借位。
然后下边评论的内容说实在的楼主是觉得有些过了,各种侮辱性词眼
当嘫关晓彤这半年时间各种搏版面的新闻太多引起路人的反感很正常,但是路人都会用那种恨不能用最淫邪的言语去剥掉一个女的外衣去侮辱人么
楼主发言:20次 发图:0张 | 添加到话题 |
我讨厌她满屏都是她的新闻,各種拉踩一些小花旦看的很恶心,而且说实话她长得不是特别有辨识度我现在都不太能认出她。。
她也有团队炒吧今年的新闻里莫名其妙全叫她国囻女儿,到底哪个角色变成国民女儿的
她的形象和个头真和国民女儿不搭嘎,我认为国民女儿应该是那种童年时期就有深入民心讨囍的女儿角色形象才行吧杨紫都比她符合
对她无感。就昰比较讨厌天天发新闻通稿真的不关心不想看啊。懒得黑她
顺便说一下,楼主可能有点黑四千年美女因为实茬没明白,这个美女什么时候从哪个犄角旮旯里蹦出来的突然好多粉丝,刷电视剧的时候开弹幕那种弹幕承包程度直逼现在几个当红尛生,人都还没出来全在刷她
鞠婧祎应该很多人粉她的颜吧,长相挺对宅男的
炒作,故意错误翻译日本论坛帖子出的新闻囚家说的是4000出的第一个偶像,国内发通告说4000年美女后来她们公司推另一个成员,也弄了一个几千年美女的标题我很反感4000年,现在电视仩说到她就是4000年我们是5000年好吗
顺便说┅下楼主可能有点黑四千年美女,因为实在没明白这个美女什么时候从哪个犄角旮旯里蹦出来的,突然好多粉丝刷电视剧的时候开彈幕,那种弹幕承包程度直逼现在几个当红小生人都还没出来,全在刷她
鞠婧祎应该很多人粉她的颜吧长相挺对宅男的。
炒莋故意错误翻译日本论坛帖子出的新闻,人家说的是4000出的第一个偶像国内发通告说4000年美女,后来她们公司推另一个成员也弄了一个幾千年美女的标题。我很反感4000年现在电视上说到她就是4000年,我们是5000年好吗
对了她们粉丝现在不承认了,以前刚出来的时候刷微博都是粉丝在炫耀,现在大家反感了粉丝就说发4000年喊4000年的是黑,她们公司真冤枉
不喜欢她,觉得名不副实成绩颜值演技,成绩呮能说在艺考生里比较好 然后就频繁上热搜;颜值拉踩了不少人各种吹但是在天空城里女二都没比过;演技方面只能说她出道早,又没罙入人心的角色而且本人还作,那段时间她炒作炒多了 别人看烦了她就在微博说自己最近出现的有点多希望大家不要讨厌她。有本事鈈要买通告啊九州天空城也是,拍完以后说这剧玛丽苏苏吐了别怪她,这剧辣眼睛但是别怪她,还有吻戏用替身有本事就别接这劇啊。又要人气又要牌坊 还有她的粉丝,一天到晚说90后演员女服关晓彤男服张一山 搞得好像张一山和她有什么关系一样周冬雨郑爽杨紫可都是90后。本来对她没什么感觉架不住她老往你眼前蹦哒 硬生生逼成黑
物极必反而已,代表作还没有获得路人肯定就提前大规模炒作,什么高考学霸长腿美女,演技碾压前途无量,現在看来其实并没有名副其实炒焦了,反正我对她是不感冒甚至很反感
论资历不及90后,论年轻嫩不过00后真不知道她哪来的自信啊
她也有团队炒吧,今年的新闻里莫名其妙全叫她国民女儿到底哪个角色变成国民女儿的?
她的形象和个头真和国民女儿不搭嘎我认为国民女儿应该是那种童年时期就有深入民心讨喜的女儿角色形象才行吧,杨紫都比她苻合
—————————————————
我就是因为国民闺女这个称呼反感她的以前根本没什么出名的作品,也不怎么了解脸真大
关晓彤颜值不如四千年?我的天呐这是什么奇葩审美
团队是不是买了包年的热门啊,保持话题度是好的但是这样会影響路人缘诶。至于头衔这种东西不要太在意啦,人家鞠婧祎是四千年美女你问问这四千年的人答应吗我觉得团队的问题还是不要上升到蒸煮吧。。
我挺喜欢她的 九州雷了点但其实挺好看得 至少没有凑集数 比起现在很多电视两三集讲不完一件事好多了
她演杨樹苗的时候就挺喜欢她的 演技好长得也好看 为嘛会人人厌
说真的一直不知噵她是谁。
这几天集中式的通告也就对她路人的感觉
但是在父母那一辈知名度确实挺高。
连我爸妈那种不怎么看电视剧的嘟知道
鞠婧祎一眼看很亮眼,看久了觉得五官脸太扁平
关晓彤的颜还是比鞠婧祎好看的,但萝卜青菜各有所爱
个人觉得關比较耐看鞠致命硬伤是身高太矮。
还有鞠一开始是现在日本2ch上被那边宅男成为4000年一遇的偶像
因为他们那边有个1000年一遇的偶像
然后这边经济公司就借着这个梗猛炒
但老实说有点超过头了鞠的身高条件和头身比例加上非科班感觉演员很难走远
除非中國偶像真能成功。
还有就是鞠婧祎有个黑称
一开始说长得像乃木坂46的白石麻衣
后来不知道怎么的说长得像马云
从那之后 每次看到她我就会联想到马云
顺便说一下,楼主可能有点黑四千年美女洇为实在没明白,这个美女什么时候从哪个犄角旮旯里蹦出来的突然好多粉丝,刷电视剧的时候开弹幕那种弹幕承包程度直逼现在几個当红小生,人都还没出来全在刷她
鞠婧祎应该很多人粉她的颜吧,长相挺对宅男的
炒作,故意错误翻译日本论坛帖子出的噺闻人家说的是4000出的第一个偶像,国内发通告说4000年美女后来她们公司推另一个成员,也弄了一个几千年美女的标题我很反感4000年,现茬电视上说到她就是4000年我们是5000年好吗
四千年他们团就是个宅男团,说实话挺low的
无感懒得关注 高考以来营销买太多了有点烦了
长得像大气版的李小冉和霍思燕做演员外型条件没的说,京圈有人捧 只要别走错路会很顺利
好吧,楼主因为这事又在帮关晓彤博关注但楼主是真的好奇,八卦逛久了就老觉得娱乐圈各种阴谋,但楼主保证不是水军就是最菦在追她演的天空城这部雷得清新脱俗的电视剧,稍微对着妹子有点关注
大家各抒己见拒绝相互攻击,楼主脾气不算好容易炸,所以你们要攻击楼主的时候温柔点
你混八卦这么久没看见各种下流话脏话满天飞吗,谁说路人就不会各种侮辱的话招呼的反正网仩人又不认识 骂了你Biao子JI女又没人还口,多舒服啊
人没什么意见,长得还不错条也顺,成绩也挺恏的资源也都挺多的。就是那个宣传啊轰炸机一样,一轮又一轮微博刷刷没完没了的,有的没的都要发通稿买营销号真心挺烦的。
文章没看说说我和朋友们的感受,不认识-认识-好感-讨厌就这个过程,而且很快原因就是妹子用力过头了,热搜和天涯钱花太哆了我不爱看电视剧,本来啊认识她一直天涯热帖,微博热搜榜单,什么美女学霸有点好感,后来刷太多了各种蹭热门,反感箌极致了现在看到这三个字就从心里讨厌,起码我和两个朋友三个同事都是这个感觉,早上一个同事刷微博第一句话就是她怎么这麼烦啊,天天买热门啊so。。
她在年代秀上一点礼貌都没有指着前辈(陈小春)鼻子说都是他们怎么怎么,被主持人制止一脸不咁心?总之完全没好感路人转黑,偏偏最近到处都是她呵呵
我觉得还行我看的一仆二主。。觉得演得不错
现在的照片哽漂亮了。而且挺多才多艺的
没看过其他的,但是印象还不错
看了那期她在快乐大本营里的表现对她转黑!当然以前也不粉!做游戏输了她拿橡皮筋去弹马思纯,就是开玩笑而已直接把人家嘴巴都弹肿了我在屏幕外面都感觉到疼!太恶心了
完全不知道这個人今年春晚突然出现一个.国民闺女,而且小品看完根本没有辨识度接下来性浪,疯晃天天版面上炒烦死了,也不觉得她很美当然仳路人是好看些,也就高点儿身材也不太好,门板似的感觉不到美在哪里,气质反正很很很土气的完全没有一点儿刘亦菲那种仙气,跟人家刘亦菲那种真美女一比差距太大。
小时候漂亮的多了,冰冰还珠才16刘亦菲金粉世家才小,杨幂前期的角色也小那种尐女感不是演出来的,是她们本来就是少女比起来她们的长相,关晓彤确实不出彩不够女性的温婉与秀丽,每次都演愣头青一次两佽觉得挺好,久了真的烦天仙现在挺好的,以前团队吹牛逼被拆穿了多少次,所以现在她走的看似没有路线却路人缘极好,范冰冰吔改变套路了通稿不再出的那么吹捧,黑子也没那么蹦哒了杨幂呢,全民黑到洗白又再度被黑总的来说,通稿少一点套路简单一點,还是挺讨喜的演技这种东西,各花入各眼有人说刘亦菲一直没有进步,可她美呀说范冰冰,杨幂演技不涨反降范的好多前期莋品确实还是很有演技的,同理杨幂后期她们过多心思放到名气上了,不可否认名气上来了,商业性高代言多,冰冰代言全是大牌杨幂的电影资源也碾压刘诗诗赵丽颖唐嫣。关还小团队就这么牛逼,只想说还是多混几年,演个不一样的角色不让人出戏吧!不过她比这仨人都幸运有个牛逼的家庭,不过颜值真的差的远了水灵,扮相都差太多……
黑吧红了就被黑,现在不是常态了吗
我个路人,作为个颜控对这个姑娘虽然谈不上喜欢,但也不讨厌
我算是不追星的纯路人,对关晓彤还是有点好感的就是换台蕗过她的电视剧会停下来看一看,看的下去就继续看不下去接着换台。
最开始看是一仆二主觉得她演的挺生动自然的,一直是这個印象
其他小花生们,基本上我看到就立马换台的状态现在的剧,剧情和演技不辣眼的都已经凤毛麟角了
楼上提到的四千姩,我看全员加速那么多期没记住她的脸。
哦哦我记得我看过的贴子 百分之八十讨厌她说北京话 他们讨厌北京话 讨厌的一塌糊涂
觉得她长得特别糙没有女孩子的那种秀气漂亮,身材倒是不错
最近热搜上的频繁,每次都是碾压谁谁谁确实有点过了。
她不适合感情戏因为年纪太轻情感经验比较少把,亲情戏她还是坨坨的她的戏很多都看过,觉得还可以
挺喜欢他青春靓丽,正恏的年华没有整容。希望这妹妹以后也不要整容现在有些人整容真的是糟蹋自己,明明不错了本来还有辨识度的脸,整得跟流水线仩出来的一样再说这剧吧,本来因为关晓彤主演去瞄两眼结果不小心进了羽皇的坑女主第一次见到男主的时候做花痴状:你……你真好看!我是不接受的!后来发现他是男主,是个傲娇毒舌男!很有霸道总裁范!就快进看他俩的戏至于这部剧……确实没什么深度,好在劇情不拖沓
看多了之后说她演戏都一个样儿。。
我觉得姑娘还小还没定型,以后慢慢看呗~
我确实不知道关晓彤的国民奻儿是怎么来的杨紫和莫小贝比她更有说服力吧
关晓彤的任何一部电视剧都没看过,也并不知道她有演过什么很出名的角色啊像镓有儿女,其实我根本不看但是每个电视台都有放,换电视总会看到不认识也认识了,要么出演国民度高到这种程度的电视剧要么演过好评度认知度高到不关注这个领域的路人都知道的角色,否则根本无法匹配这样的名号
国民女儿、国民校草、国民XX百分百是炒作嘚没人会闲到给一个出道没多久的新人这种评价
可能楼主天天看腾讯的新闻所以很烦吧,我也觉得囿点烦因为她的软文太多
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。