knn和kmeans的区别
2022-01-11 09:12:19文/丁雪竹knn属于监督学习,类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。kmeans属于非监督学习,事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。
knn和kmeans的区别
1.KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模板来分类
2Kmeans算法是聚类算法,聚类算法与分类算法最大的区别是聚类算法没有学习语料集合。
K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
Kmeans算法的缺陷
聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适
Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。(可以使用Kmeans++算法来解决)
针对上述第2个缺陷,可以使用Kmeans++算法来解决
K-Means ++ 算法
k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。
从输入的数据点集合中随机选择一个点作为第一个聚类中心
对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大
重复2和3直到k个聚类中心被选出来
利用这k个初始的聚类中心来运行标准的k-means算法
从上面的算法描述上可以看到,算法的关键是第3步,如何将D(x)反映到点被选择的概率上,一种算法如下:
先从我们的数据库随机挑个随机点当“种子点”
对于每个点,我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里,然后把这些距离加起来得到Sum(D(x))。
然后,再取一个随机值,用权重的方式来取计算下一个“种子点”。这个算法的实现是,先取一个能落在Sum(D(x))中的随机值Random,然后用Random -= D(x),直到其<=0,此时的点就是下一个“种子点”。
重复2和3直到k个聚类中心被选出来
利用这k个初始的聚类中心来运行标准的k-means算法
- couch和sofa的区别
指代范围不同,sofa是有扶手和靠背、可供多人坐或...
2022-01-11 - 2022广东美术统考成绩查询时间公布
1月8日10:00起,考生可通过省教育考试院官微(...
2022-01-11 - 2022年陕西美术类统考合格线公布
美术类:本科197分,高职(专科)170分。考生使...
2022-01-11 - 2022北京美术统考合格线公布
北京市2022年高考美术类专业统一考试合格分数线:...
2022-01-11 - 2022广东美术、书法和广播电视编导术科统考成绩查询时间
1月8日10:00起,考生可通过省教育考试院官微(...
2022-01-11 - 辽宁2022戏剧与影视学类专业统考合格线公布
2022年辽宁省普通高等学校招生戏剧与影视学类各专...
2022-01-11 - 陕西2022艺术类专业统考成绩公布
2022年陕西省普通高校招生美术类专业课、播音编导...
2022-01-11 - 2022新闻学专业就业方向及就业前景怎么样
新闻学专业就业方向有哪些,就业前景怎么样,学生毕业...
2022-01-10 - 2022荷兰语专业就业方向及就业前景怎么样
荷兰语专业就业方向有哪些,就业前景怎么样,学生毕业...
2022-01-10 - 2022理论与应用力学专业就业方向及就业前景怎么样
理论与应用力学专业就业方向有哪些,就业前景怎么样,...
2022-01-10 - 2022瑞典语专业就业方向及就业前景怎么样
瑞典语专业就业方向有哪些,就业前景怎么样,学生毕业...
2022-01-10 - 2022全国开设国际文化贸易专业有哪些院校
2022全国开设国际文化贸易专业的院校有北京第二外...
2022-01-10 - 2022电子商务专业就业方向及就业前景怎么样
电子商务专业的就业方向包括事企事业单位的网站设计、...
2022-01-10 - 2022全国开设汽车制造与装配技术专业有哪些院校
2022全国开设汽车制造与装配技术专业的院校有大连...
2022-01-10 - 2022希腊语专业就业方向及就业前景怎么样
希腊语专业就业方向有哪些,就业前景怎么样,学生毕业...
2022-01-10
点击查看 高中英语 更多内容