回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)(4)
2017-05-20 编辑:
R 实现:https://stat.ethz.ch/R-manual/R-devel/library/stats/html/hclust.html
3.4 DBSCAN
DBSCAN 是一个基于密度的算法,它将样本点的密集区域组成一个集群。最近还有一项被称为 HDBSCAN 的新进展,它允许改变密度集群。
优点:DBSCAN 不需要假设集群为球状,并且它的性能是可扩展的。此外,它不需要每个点都被分配到一个集群中,这降低了集群的异常数据。
缺点:用户必须要调整「epsilon」和「min_sample」这两个定义了集群密度的超参数。DBSCAN 对这些超参数非常敏感。
Python 实现:http://scikit-learn.org/stable/modules/clustering.html#dbscan
R 实现:https://cran.r-project.org/web/packages/dbscan/index.html
结语
本文从回归问题、分类问题和聚类问题三个角度下初步了解了各个算法的优缺点,也基本了解了那些算法到底是什么。但以上每一个算法都有更多的概念和细节没有展现出来,我们不能知道它们的损失函数是什么、训练目标是什么、权重更新策略是什么等等一些列问题。因此我们希望能从机器之心历来文章中搜寻一些,为有兴趣的读者提供这些算法的具体细节。
线性回归:
初学 TensorFlow 机器学习:如何实现线性回归?(附练习题)
从头开始:用 Python 实现带随机梯度下降的线性回归
决策树(集成方法):
从头开始:用 Python 实现随机森林算法
从头开始:用 Python 实现决策树算法
支持向量机:
详解支持向量机(附学习资源)
深度学习:
深度神经网络全面概述:从基本概念到实际模型和硬件基础
深度学习与神经网络全局概览:核心技术的发展历程
聚类算法:
机器理解大数据的秘密:聚类算法深度详解
最后,不论是基本概念还是具体算法,最重要的就是实践。不实践这些算法就永远不能发现哪些地方没有掌握,因此希望本文能有助于各位读者实践自己的算法。
原文地址:https://elitedatascience.com/machine-learning-algorithms#regression
读者福利:即日起至 GMIS 2017 大会前一天,读者在头条文章下留言,机器之心会在次日选出最专业或最有见解的一条评论赠送 GMIS 2017 双日票一张!
请点「击阅读原文」查看全部嘉宾阵容,并报名参与机器之心 GMIS 2017。
相关阅读:
相关推荐: