1.理解分类与监督学习、聚类与无監督学习
简述分类与聚类的联系与区别。
联系:都是对数据进行划分的方法
区别:分类就是“贴标签”在事先已有的类中按这些类的性质来进行划分,要做的就是将每一条记录分别属于哪一类标记出来常用算法KNN,是一种有监督学习;
聚类是在事先没有类没有训练条件的情况下,根据数据相似性来把样本划分为若干类常用算法k-means算法,是一种无监督学习
简述什么是监督学习与无监督学习。
监督学习:监督学习是从标记的训练数据来推断一个功能的机器学习任务就是在有样本的情况下,根据样本属性来判断某数据属于什么类型监督学习的算法有神经网络算法、决策树学习算法,主要是用于分类、回归
无监督学习:根据类别未知(没有被标记)的训练样本解决模式识別中的各种问题,称之为无监督学习就是在无样本的情况下,根据相似性来判断某数据属于什么类型无监督学习里典型例子是聚类、降维。
2.朴素贝叶斯分类算法 实例
利用关于心脏病患者的临床历史数据集建立朴素贝叶斯心脏病分类模型。
有六个分类变量(分类因子):性別年龄、KILLP评分、饮酒、吸烟、住院天数
新的实例:–(性别=‘男’,年龄<70, KILLP=‘I'饮酒=‘是’,吸烟≈‘是”住院天数<7)
3.使用朴素贝叶斯模型對iris数据集进行花分类。
尝试使用3种不同类型的朴素贝叶斯:
答:联系:聚类属于无监督学习即模型训练过程中没有被目标标签监督。而分类属于监督学习即其训练数据都标记了需要被预测的真实值。在很多情况下聚类模型等价于分类模型的无监督形式。
分类是一种有监督的算法是在已经有目标分类的情况下对数据进行类别判断(朴素贝叶斯算法)。而聚類是一种无监督算法是在建立模型之前还没有目标分类,将特征相似的数据自动聚为一类的算法(KMeans聚类算法)
答:监督学习:就是人们瑺说的分类通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表礻在某个评价准则下是最佳的)再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的也就具囿了对未知数据进行分类的能力。
有监督学习是在建立模型之前已经给出训练数据集机器根据训练数据集训练出模型并对新数据进行预測。无监督学习是对未进行人工标注的数据进行分析机器根据数据间的相似性自行分类。相似度高的数据会被聚为一类
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。