您当前的位置:首页 > 生活热点

数据挖掘就是机器学习吗 机器学习和数据挖掘的关系

时间:2023-02-08 23:54:11

数据挖掘就是机器学习吗 机器学习和数据挖掘的关系

在我开始之前,我想和你谈谈机器学习和数据挖掘之间的关系。

数据挖掘只是机器学习涉及的领域之一,机器学习还包括模式识别、计算机视觉、语音识别、统计学习和自然语言处理。

机器学习(Machine learning,简称ML)是一门多学科交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂性理论等诸多学科。它着眼于计算机如何模拟或实现人类的学习行为,从而获得新的知识或技能,并重组已有的知识结构,以不断提高自身的性能。

机器学习作为人工智能研究中相对年轻的一个分支,也分为有监督学习和无监督学习。同时,随着人工智能的日益关注和普及,深度学习也是机器学习的新领域。

机器学习,从知识列表开始。

我们第一天学车,不会直接上路,而是想让你先学习基础知识,然后模拟上车。

只有对知识有了全面的了解,才能保证在以后的工作中即使遇到问题,也能快速定位问题,进而找到应对和解决问题的方法。

所以我做了一个关于机器学习入门的知识清单,即机器学习的一般流程、十大算法和算法学习的三重境界,以此开始我们的学习之旅。

一、机器学习的基本过程

引用老板的解释:

如果一个计算机程序在某项任务T和某项性能指标P上的性能(由P来衡量)随着经验E的增加而提高,那么就说它从经验E中学习了

简单来说,机器学习就是利用我们输入的数据对算法进行训练,算法经过训练会生成一个模型,这个模型就是通过数据抓取对当前问题的描述。然后我们将模型进一步导入数据,或者引入新的数据集进行评估,根据结果的质量依次调整算法,形成反馈和优化闭环。整个过程机器都在不断学习、训练、优化迭代,这也是机器学习的厉害之处。

二、机器学习的十种算法

为了执行机器学习和数据挖掘任务,数据科学家提出了各种模型。在众多的数据挖掘模型中,国际权威学术组织ICDM(IEEE国际数据挖掘会议)评选出了十大经典算法。

根据不同的目的,我可以把这些算法分为四类,供大家更好的理解。

分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,车。

聚类算法:K均值,EM

关联分析:先验

连接分析:PageRank

1.C4.5

C4.5算法是票数最高的算法,可以说是十大算法之首。C4.5是决策树的一种算法,创造性的在决策树构造过程中进行剪枝,可以处理连续属性和不完整数据。可以说是决策树分类中具有里程碑意义的算法。

2.朴素贝叶斯

朴素贝叶斯模型是基于概率论的原理,其思想是这样的:如果给定的未知物体想要被分类,就需要在未知物体出现的条件下,求解每个类别的概率,哪个最大,就认为未知物体属于哪个分类。

3.SVM

SVM中文叫支持向量机,英文叫支持向量机。SVM在训练中建立了超平面分类模型。

4.KNN

KNN也叫K近邻算法,英文是K近邻。所谓k个邻居,是指每个样本都可以用它最近的k个邻居来表示。如果一个样本及其k个最近邻都属于A类,那么这个样本也属于A类.

5.adaboost算法

Adaboost在训练中建立了联合分类模型。Boost在英语中代表推广,所以Adaboost是一种用于构建分类器的推广算法。可以让我们的弱分类器形成强分类器,所以Adaboost也是一种常用的分类算法。

6.手推车

CART代表分类和回归树,英文就是分类和回归树。和英语一样,它构造了两棵树:一棵是分类树,一棵是回归树。和C4.5一样,是决策树学习方法。

7.推测的

Apriori是一种挖掘关联规则的算法。它通过挖掘频繁项目集来揭示项目之间的关系,广泛应用于商业挖掘和网络安全领域。频繁项目集是指经常一起出现的项目的集合,关联规则暗示两个项目之间可能存在很强的关系。

8.k均值

k均值算法是一种聚类算法。你可以这样理解。最后我想把物体分成K类。假设每个类别都有一个“中心点”,即意见领袖,这是这个类别的核心。现在我有了一个新的分类点。这个时候我只需要计算这个新点和K个中心点的距离,哪个中心点近,就变成哪个类别。

9.东地中海(Eastern Mediterranean)

EM算法又称最大期望算法,是一种获得参数极大似然估计的方法。原理如下:假设我们要求参数A和参数B,这两个参数在初始状态都是未知的,知道A的信息就可以得到B的信息,反之亦然。我们可以考虑给定某个初值得到B的估计,然后从B的估计重新估计A的值,这个过程一直持续到收敛。

EM算法常用于聚类和机器学习领域。

10.PageRank

PageRank源于论文影响力的计算方法。一个文学理论被介绍的次数越多,说明该论文的影响力越强。同样,PageRank被Google创造性地应用到网页权重的计算中:当一个页面链接出的页面越多,就意味着这个页面上的“引用”越多,当这个页面被链接进来的越频繁,就意味着这个页面被引用的次数越多。基于这个原理,我们可以得到网站的权重划分。

算法可以说是机器学习的灵魂,也是最本质的部分。这10个经典算法在整个机器学习领域的票数最高,其他一些算法基本都是在此基础上的改进和创新。今天,你初步了解了十大算法。你只需要知道你在做什么。

三、机器学习的三个领域

1.掌握算法的入口和出口

第一个层次是算法本身是一个黑盒,在不知道算法具体原理的情况下,就可以掌握算法的基本应用场景(有监督的和无监督的)和算法的基本应用场景,可以切换实现算法。

2.了解原理,灵活调整。

第二个层次是能够深入理解和掌握算法的原理,并在此基础上了解算法实践过程中的关键技术和核心参数。最好是用编程语言手动实现算法,解释算法的执行结果,在理解原理的基础上通过调整参数来优化算法。

3.掌握和设计算法。

最后一个境界其实是算法(R&D)工程师的主要任务,就是要能够结合业务场景和自身的数学基础进行有针对性的算法研发。这部分工作不仅需要扎实的算法基本原理知识,还需要扎实的编程能力。

摘要

今天我把学习机器学习需要掌握的知识列了一个清单。只有对机器学习的过程、算法、原理有了更深入的了解,才能在实际工作中更好地运用。祝你在机器学习的道路上越走越远。

审核编辑:李倩

标签:算法机器原理

算法

最新文章