__2017-12-11 如一模式识别研究

如一模式识别研究

智能算法>>KNN最邻近分类法

KNN算法是机器学习里面比较简单的一个分类算法了,整体思想比较简单:计算一个点A与其他所有点之间的距离,取出与该点最近的k个点,然后统计这k个点里面所属分类比例最大的,则点A属于该分类。这样讲可能还有点迷糊,下面用一个例子来说明一下:

电影名称   打斗次数   接吻次数   电影类型

电影1        3        104        浪漫

电影2        2        100        浪漫

电影3        1        81         浪漫

电影4        101      10         动作

电影5        99        5         动作

电影6        98        2         动作

未知         18        90        未知

简单说一下这个数据的意思:这里用打斗次数和接吻次数来界定电影类型,如上,接吻多的是浪漫类型的电影,而打斗多的是动作电影。还有一部名字未知(这里是要用KNN分类器来分类出电影类型),打斗次数为18次,接吻次数为90次的电影,它到底属于哪种类型的电影呢?

KNN算法要做的,就是先用打斗次数和接吻次数作为电影的分类特征,然后计算其他六部电影与未知电影之间的距离,取得前K个距离最近的电影,然后统计这k个距离最近的电影里,属于哪种类型的电影最多,比如如果动作电影多,则说明未知的这部电影属于动作片类型。

在实际使用中,有几个问题是值得注意的:K值的选取,选多大合适呢?计算两者间距离,用哪种距离会更好呢(欧几里得距离等等几个)?计算量太大怎么办?假设样本中,类型分布非常不均,比如Action的电影有200部,但是Romance的电影只有20部,这样计算起来,即使不是Action的电影,也会因为Action的样本太多,导致k个最近邻居里有不少Action的电影,这样该怎么办呢?

总的来说,没有万能的算法,只有在一定使用环境中最优的算法,所以,要懂得合适利用算法。下面为使用KNN分类的训练分类流程:

1 导入特征和类别:特征{[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]},类别:{[1],[1],[1],[2],[2],[2]},1为浪漫定影,2为动作电影

2 训练KNN分类器

3 用KNN分类器分类预测

评论留言区

:
  

作者: 游客 ; *
评论内容: *
带*号为必填项目

如一模式识别更新提示

matlab在图像处理方面的应用有更新

如一模式识别 友情链接

关于本站作者     chinaw3c     mozilla