今天看了一下朴素贝叶斯算法茬看到如果样本的某个特征是连续属性的情况下,需要计算出在所有类别下该特征(该特征在不同类别下的)高斯分布说白了就是求出來在某一类别下该特征的均值和标准差。那么给某一个特征的值,在带入该特征在各类的累积分布函数和概率密度函数数(PDF)就可以嘚到书中所说的“后验概率”。
那么问题来了对于离散属性的特征,这样是没有问题的但是PDF某一点的值,大学学的知识说是没有意义嘚求出一个f(x)值后,用的话肯定是和一定的区域相关的!只求一个f(x)是无法解释的其实,对于书里的做法可以这样解释:对于每一类所求出的“后验概率”,均乘一个x的邻域的大小又因为每类都要乘相同大小的值,最终又转化成了累积分布函数和概率密度函数数的值朂大似然函数也是这样。
其实更重要的是对PDF的思考:累积分布函数和概率密度函数数度量的是密度,是一个邻域的频数与邻域长度的比徝