您当前的位置:首页 > 淘宝百科

机器学习的含义是什么?什么是机器学习

时间:2023-01-30 23:20:42

本文目录

  • 机器学习的含义是什么
  • 什么是机器学习
  • 机器学习一般常用的算法有哪些
  • 数据挖掘和机器学习区别是什么
  • 机器学习的研究内容有哪些
  • 机器学习是什么
  • 机器学习的分类
  • 机器学习一词由谁提出
  • 如何评价微软机器学习云服务AzureML
  • 机器学习中的分类距离

机器学习的含义是什么

简单来说,就是建立模型、编程实现,用已有的数据来训练,让机器(计算机)来学会如何分析一类问题,之后就可以用计算机来解决这类问题。

比如说,有一堆西瓜的数据(西瓜的颜色、花纹、西瓜蒂的形状、西瓜甜不甜),让计算机来进行学习,什么特征的西瓜就是甜的,什么样的西瓜是不甜的。计算机学习成功后,就可以分析新一批的西瓜哪些甜哪些不甜。

上面是个简单的例子,人脸位置检测、人脸识别等等,也都可以通过机器学习实现。

什么是机器学习

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能核心,是使计算机具有智能的根本途径。

机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。

1950年(艾伦.图灵提议建立一个学习机器)到2000年初(有深度学习的实际应用以及最近的进展,比如2012年的AlexNet),机器学习有了很大的进展。

从20世纪50年代研究机器学习以来,不同时期的研究途径和目标并不相同,可以划分为四个阶段。

第一阶段是20世纪50年代中叶到60年代中叶,这个时期主要研究“有无知识的学习”。这类方法主要是研究系统的执行能力。

这个时期,主要通过对机器的环境及其相应性能参数的改变来检测系统所反馈的数据,就好比给系统一个程序,通过改变它们的自由空间作用,系统将会受到程序的影响而改变自身的组织,最后这个系统将会选择一个最优的环境生存。

在这个时期最具有代表性的研究就是Samuet的下棋程序。但这种机器学习的方法还远远不能满足人类的需要。

机器学习一般常用的算法有哪些

机器学习是人工智能的核心技术,是学习人工智能必不可少的环节。机器学习中有很多算法,能够解决很多以前难以企的问题,机器学习中涉及到的算法有不少,下面小编就给大家普及一下这些算法。

一、线性回归

一般来说,线性回归是统计学和机器学习中最知名和最易理解的算法之一。这一算法中我们可以用来预测建模,而预测建模主要关注最小化模型误差或者尽可能作出最准确的预测,以可解释性为代价。我们将借用、重用包括统计学在内的很多不同领域的算法,并将其用于这些目的。当然我们可以使用不同的技术从数据中学习线性回归模型,例如用于普通最小二乘法和梯度下降优化的线性代数解。就目前而言,线性回归已经存在了200多年,并得到了广泛研究。使用这种技术的一些经验是尽可能去除非常相似(相关)的变量,并去除噪音。这是一种快速、简单的技术。

二、Logistic 回归

它是解决二分类问题的首选方法。Logistic 回归与线性回归相似,目标都是找到每个输入变量的权重,即系数值。与线性回归不同的是,Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。logistic 函数看起来像一个大的S,并且可以将任何值转换到0到1的区间内。这非常实用,因为我们可以规定logistic函数的输出值是0和1并预测类别值。像线性回归一样,Logistic 回归在删除与输出变量无关的属性以及非常相似的属性时效果更好。它是一个快速的学习模型,并且对于二分类问题非常有效。

三、线性判别分析(LDA)

在前面我们介绍的Logistic 回归是一种分类算法,传统上,它仅限于只有两类的分类问题。而LDA的表示非常简单直接。它由数据的统计属性构成,对每个类别进行计算。单个输入变量的 LDA包括两个,第一就是每个类别的平均值,第二就是所有类别的方差。而在线性判别分析,进行预测的方法是计算每个类别的判别值并对具备最大值的类别进行预测。该技术假设数据呈高斯分布,因此最好预先从数据中删除异常值。这是处理分类预测建模问题的一种简单而强大的方法。

四、决策树

决策树是预测建模机器学习的一种重要算法。决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树,没什么特别的。每个节点代表一个单独的输入变量x和该变量上的一个分割点。而决策树的叶节点包含一个用于预测的输出变量y。通过遍历该树的分割点,直到到达一个叶节点并输出该节点的类别值就可以作出预测。当然决策树的有点就是决策树学习速度和预测速度都很快。它们还可以解决大量问题,并且不需要对数据做特别准备。

五、朴素贝叶斯

其实朴素贝叶斯是一个简单但是很强大的预测建模算法。而这个模型由两种概率组成,这两种概率都可以直接从训练数据中计算出来。第一种就是每个类别的概率,第二种就是给定每个 x 的值,每个类别的条件概率。一旦计算出来,概率模型可用于使用贝叶斯定理对新数据进行预测。当我们的数据是实值时,通常假设一个高斯分布,这样我们可以简单的估计这些概率。而朴素贝叶斯之所以是朴素的,是因为它假设每个输入变量是独立的。这是一个强大的假设,真实的数据并非如此,但是,该技术在大量复杂问题上非常有用。所以说,朴素贝叶斯是一个十分实用的功能。

六、K近邻算法

K近邻算法简称KNN算法,KNN 算法非常简单且有效。KNN的模型表示是整个训练数据集。KNN算法在整个训练集中搜索K个最相似实例(近邻)并汇总这K个实例的输出变量,以预测新数据点。对于回归问题,这可能是平均输出变量,对于分类问题,这可能是众数类别值。而其中的诀窍在于如何确定数据实例间的相似性。如果属性的度量单位相同,那么最简单的技术是使用欧几里得距离,我们可以根据每个输入变量之间的差值直接计算出来其数值。当然,KNN需要大量内存或空间来存储所有数据,但是只有在需要预测时才执行计算。我们还可以随时更新和管理训练实例,以保持预测的准确性。

七、Boosting 和 AdaBoost

首先,Boosting 是一种集成技术,它试图集成一些弱分类器来创建一个强分类器。这通过从训练数据中构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误来完成。一直添加模型直到能够完美预测训练集,或添加的模型数量已经达到最大数量。而AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上,最显著的是随机梯度提升。当然,AdaBoost 与短决策树一起使用。在第一个决策树创建之后,利用每个训练实例上树的性能来衡量下一个决策树应该对每个训练实例付出多少注意力。难以预测的训练数据被分配更多权重,而容易预测的数据分配的权重较少。依次创建模型,每一个模型在训练实例上更新权重,影响序列中下一个决策树的学习。在所有决策树建立之后,对新数据进行预测,并且通过每个决策树在训练数据上的精确度评估其性能。所以说,由于在纠正算法错误上投入了太多注意力,所以具备已删除异常值的干净数据十分重要。

八、学习向量量化算法(简称 LVQ)

学习向量量化也是机器学习其中的一个算法。可能大家不知道的是,K近邻算法的一个缺点是我们需要遍历整个训练数据集。学习向量量化算法(简称 LVQ)是一种人工神经网络算法,它允许你选择训练实例的数量,并精确地学习这些实例应该是什么样的。而学习向量量化的表示是码本向量的集合。这些是在开始时随机选择的,并逐渐调整以在学习算法的多次迭代中最好地总结训练数据集。在学习之后,码本向量可用于预测。最相似的近邻通过计算每个码本向量和新数据实例之间的距离找到。然后返回最佳匹配单元的类别值或作为预测。如果大家重新调整数据,使其具有相同的范围,就可以获得最佳结果。当然,如果大家发现KNN在大家数据集上达到很好的结果,请尝试用LVQ减少存储整个训练数据集的内存要求

数据挖掘和机器学习区别是什么

数据挖掘倾向于根据已有数据训练出的模型推测未来的数据,指的是知识获取的过程,机器学习就更强调方法,决策树、神经网络、贝叶斯分类等。一般来说数据挖掘范围更大,是包含机器学习的。数据挖掘跟很多学科领域联系紧密,其中数据库、机器学习、统计学影响是最大。简单地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界沉醉于于理论的优美而忽略实际的效用,因此,统计学界提供的很多技术往往都要在机器学习界进一步研究,变成有效果的机器学习算法之后才可以进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘产生影响,而机器学习和数据库则是数据挖掘的两大支撑技术。 关于数据挖掘工程师的课程,推荐CDA数据分析师的相关课程,课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”点击预约免费试听课。

机器学习的研究内容有哪些

近年来,有很多新型的机器学习技术受到人们的广泛关注,也在解决实际问题中,提供了有效的方案。这里,我们简单介绍一下深度学习、强化学习、对抗学习、对偶学习、迁移学习、分布式学习、以及元学习,让大家可以明确机器学习的方向都有哪些,这样再选择自己感兴趣或擅长的研究方向,我觉得这是非常理智的做法。▌深度学习不同于传统的机器学习方法,深度学习是一类端到端的学习方法。基于多层的非线性神经网络,深度学习可以从原始数据直接学习,自动抽取特征并逐层抽象,最终实现回归、分类或排序等目的。在深度学习的驱动下,人们在计算机视觉、语音处理、自然语言方面相继取得了突破,达到或甚至超过了人类水平。深度学习的成功主要归功于三大因素——大数据、大模型、大计算,因此这三个方向都是当前研究的热点。在过去的几十年中,很多不同的深度神经网络结构被提出,比如,卷积神经网络,被广泛应用于计算机视觉,如图像分类、物体识别、图像分割、视频分析等等;循环神经网络,能够对变长的序列数据进行处理,被广泛应用于自然语言理解、语音处理等;编解码模型(Encoder-Decoder)是深度学习中常见的一个框架,多用于图像或序列生成,例如比较热的机器翻译、文本摘要、图像描述(image captioning)问题。▌强化学习2016 年 3 月,DeepMInd 设计的基于深度卷积神经网络和强化学习的 AlphaGo 以 4:1 击败顶尖职业棋手李世乭,成为第一个不借助让子而击败围棋职业九段棋手的电脑程序。此次比赛成为AI历史上里程碑式的事件,也让强化学习成为机器学习领域的一个热点研究方向。强化学习是机器学习的一个子领域,研究智能体如何在动态系统或者环境中以“试错”的方式进行学习,通过与系统或环境进行交互获得的奖赏指导行为,从而最大化累积奖赏或长期回报。由于其一般性,该问题在许多其他学科中也进行了研究,例如博弈论、控制理论、运筹学、信息论、多智能体系统、群体智能、统计学和遗传算法。▌迁移学习迁移学习的目的是把为其他任务(称其为源任务)训练好的模型迁移到新的学习任务(称其为目标任务)中,帮助新任务解决训练样本不足等技术挑战。之所以可以这样做,是因为很多学习任务之间存在相关性(比如都是图像识别任务),因此从一个任务中总结出来的知识(模型参数)可以对解决另外一个任务有所帮助。迁移学习目前是机器学习的研究热点之一,还有很大的发展空间。▌对抗学习传统的深度生成模型存在一个潜在问题:由于最大化概率似然,模型更倾向于生成偏极端的数据,影响生成的效果。对抗学习利用对抗性行为(比如产生对抗样本或者对抗模型)来加强模型的稳定性,提高数据生成的效果。近些年来,利用对抗学习思想进行无监督学习的生成对抗网络(GAN)被成功应用到图像、语音、文本等领域,成为了无监督学习的重要技术之一。▌对偶学习对偶学习是一种新的学习范式,其基本思想是利用机器学习任务之间的对偶属性获得更有效的反馈/正则化,引导、加强学习过程,从而降低深度学习对大规模人工标注数据的依赖。对偶学习的思想已经被应用到机器学习很多问题里,包括机器翻译、图像风格转换、问题回答和生成、图像分类和生成、文本分类和生成、图像转文本和文本转图像等等。▌分布式学习分布式技术是机器学习技术的加速器,能够显著提高机器学习的训练效率、进一步增大其应用范围。当“分布式”遇到“机器学习”,不应只局限在对串行算法进行多机并行以及底层实现方面的技术,我们更应该基于对机器学习的完整理解,将分布式和机器学习更加紧密地结合在一起。▌元学习元学习(meta learning)是近年来机器学习领域的一个新的研究热点。字面上来理解,元学习就是学会如何学习,重点是对学习本身的理解和适应,而不仅仅是完成某个特定的学习任务。也就是说,一个元学习器需要能够评估自己的学习方法,并根据特定的学习任务对自己的学习方法进行调整。

机器学习是什么

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。需要注意的是,机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力,称为泛化(Generalization)能力。通常学习一个好的函数,分为以下三步:1、选择一个合适的模型,这通常需要依据实际问题而定,针对不同的问题和任务需要选取恰当的模型,模型就是一组函数的集合。2、判断一个函数的好坏,这需要确定一个衡量标准,也就是我们通常说的损失函数(Loss Function),损失函数的确定也需要依据具体问题而定,如回归问题一般采用欧式距离,分类问题一般采用交叉熵代价函数。3、找出“最好”的函数,如何从众多函数中最快的找出“最好”的那一个,这一步是最大的难点,做到又快又准往往不是一件容易的事情。常用的方法有梯度下降算法,最小二乘法等和其他一些技巧(tricks)。学习得到“最好”的函数后,需要在新样本上进行测试,只有在新样本上表现很好,才算是一个“好”的函数。

机器学习的分类

机器学习的分类主要有学习策略、学习方法、数据形式。学习目标等。从学习策略方面来看,如果比较严谨的讲,那就是可分为两种:(1) 模拟人脑的机器学习符号学习:模拟人脑的宏现心理级学习过程,以认知心理学原理为基础,以符号数据为输入,以符号运算为方法,用推理过程在图或状态空间中搜索,学习的目标为概念或规则等。符号学习的典型方法有记忆学习、示例学习、演绎学习.类比学习、解释学习等。神经网络学习(或连接学习):模拟人脑的微观生理级学习过程,以脑和神经科学原理为基础,以人工神经网络为函数结构模型,以数值数据为输人,以数值运算为方法,用迭代过程在系数向量空间中搜索,学习的目标为函数。典型的连接学习有权值修正学习、拓扑结构学习。(2) 直接采用数学方法的机器学习主要有统计机器学习。统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。统计机器学习三个要素:模型(model):模型在未进行训练前,其可能的参数是多个甚至无穷的,故可能的模型也是多个甚至无穷的,这些模型构成的集合就是假设空间。策略(strategy):即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。那么策略就是误差最小。算法(algorithm):即从假设空间中挑选模型的方法(等同于求解最佳的模型参数)。机器学习的参数求解通常都会转化为最优化问题,故学习算法通常是最优化算法,例如最速梯度下降法、牛顿法以及拟牛顿法等。如果从学习方法方面来看的话,主要是归纳学习和演绎学习以及类比学习、分析学习等。如果是从学习方式方面来看,主要有三种,为监督学习、无监督学习、 强化学习。当从数据形式上来看的话,为 结构化学习、非结构化学习、还可从学习目标方面来看,为 概念学习、规则学习、函数学习、类别学习、贝叶斯网络学习。

机器学习一词由谁提出

艾伦·图灵。

1950年(艾伦·图灵提议建立一个学习机器)到2000年初(有深度学习的实际应用以及最近的进展,比如2012年的AlexNet),机器学习有了很大的进展。从20世纪50年代研究机器学习以来,不同时期的研究途径和目标并不相同,可以划分为四个阶段。

研究现状

机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。2010年的图灵奖获得者为哈佛大学的Leslie vlliant教授,其获奖工作之一是建立了概率近似正确(Probably Approximate Correct,PAC)学习理论。

2011年的图灵奖获得者为加州大学洛杉矶分校的Judea Pearll教授,其主要贡献为建立了以概率统计为理论基础的人工智能方法。这些研究成果都促进了机器学习的发展和繁荣。

如何评价微软机器学习云服务AzureML

1、微软正在着手将其内部机器学习技术向云服务迁移,希望借此使其Azure服务能够在与谷歌及Amazon同类产品的竞争当中取得优势。

2、该公司的全新Azure ML服务于本周一发布,这意味着开发者们可以访问由Azure云托管的机器学习系统甚至将自己的应用程序直接与其进行对接。

3、这项技术让开发者们得以直面机器学习机制及其相关技术成果,其中包括深层学习系统,并将其应用到自己的应用程序当中。

4、谷歌宣布公司内的一位工程师已经建立起一套系统,旨在利用神经网络调整19项不同输入与1项单一输出结果——即数据中心能源使用效率——之间的关系。该系统的实际表现非常出色,谷歌在它的帮助下已经能够更好地随时间推移模拟出基础设施的实际能源消耗情况。

5、在Azure ML的辅助下,微软表示将能够创建多种面向开发者们的相关系统类型,并为其提供广泛普及所必需的设置、培训以及技术使用指导等配套方案。

机器学习中的分类距离

作者 | 我的智慧生活

来源 | 咪付

生活中,距离通常是用于形容两个地方或两个物体之间的远近。在人工智能机器学习领域,常使用距离来衡量两个样本之间的相似度。

“物以类聚”

我们知道“物以类聚”通常用于比喻同类的东西经常聚在一起。机器学习中,距离就是遵循物以类聚的思想。通过两个样本特征数据进行距离计算后,得到的距离值越小,代表两者的相似度越高,属于同一类的可能性就越高。换句话说,距离能够决定样本的归属。

例如,在下图中,对于机器学习来说存在着两种距离:

(1)一是人物的空间位置距离;

(2)二是人物的性格爱好距离。

对第1种距离来说,A与C较A与B近;而对第2种距离来说,则是A与B较近(爱打球)。A与B的爱好距离可通过如下计算:

我们用0—10分来表征每个人对打球的喜好程度,分数越高代表越爱打球,假设A、B、C三人的分值分别如下:

可以看出,A、B两人的分数较接近,A、B两人的分数差小于A、C两人的分数差,这个分数差值也就是机器学习中要计算的距离。通过比较得出,A、B两者的距离小,容易归为一类。当然,这里仅仅分析了爱打球这一个特征属性,机器学习中通常涉及多个属性进行综合计算和判断,也就是多维度分析。

物理几何空间距离

机器学习中,计算两个样本点之间的距离有多种不同的距离衡量方法,其中最常见的就是采用物理几何空间距离进行衡量。所谓物理几何空间距离就是点到点之间在物理空间中的真实距离。通俗地说,这类距离看得见、摸得着。常见的物理几何空间距离有:

欧氏距离

(Euclidean Distance)

曼哈顿距离

(Manhattan Distance)

切比雪夫距离

(Chebyshev Distance)

闵氏距离

(Minkowski Distance)

夹角余弦

(Cosine)

这几类物理几何空间距离的应用非常多,尤其是欧氏距离。

曼哈顿距离

我们首先从曼哈顿距离来形象了解机器学习中的距离,曼哈顿距离也是机器学习中常采用的一种距离。

我们知道曼哈顿是“世界的十字路口”,那里有非常多的十字交叉路口。

曼哈顿距离,说的是从街区中的一个十字路口到另一个十字路口所经过的街区距离,因此也称为城市街区距离。下图中给出了曼哈顿距离的形象说明,当我们开车从街区的一个十字路口(O)到了另一个十字路口(E)所经过的街区距离为:a+b,这就是曼哈顿距离。

O、E两点之间直线段距离是我们生活中常说的两个地方(O、E)之间的距离,而在实际街区中的情形,车辆无法从O沿直线开到E,除非具备像蜘蛛侠一样的飞行本领可以穿越其中的大楼,这就是曼哈顿距离的由来。

一图看清“欧曼雪”

下面我们再从简单的二维平面坐标图来对比了解欧氏距离、曼哈顿距离和切比雪夫距离(以下简称“欧曼雪”)这三种距离的区别。

上图是由X和Y组成的二维平面坐标,现有A、B两个二维样本值,其投影坐标点分别为:

A(X1,Y1)、B(X2,Y2)

A、B两点之间的直线段距离(图中的c)就是A、B两个样本的欧氏距离。因此,欧氏距离就是两个样本值投影在其坐标空间上的两点之间的直线距离。

如何计算A与B之间的欧氏距离?

从图中可以看出,A、B两点之间的直线段(c)与其横坐标差值线段:

a=X2-X1

纵坐标差值线段:

b=Y2-Y1

构成了一个直角三角形,根据勾股定理的关系可知:

c?=a?+b?

因此,我们可以根据坐标点A(X1,Y1)、B(X2,Y2),求得c值。即计算式为:

c?=a?+b?=(X2-X1)?+(Y2-Y1)?

A与B之间的曼哈顿距离又是怎样的距离呢?

上图中曼哈顿距离是由A沿直线走到C,再由C沿直线走到B,总共经过的距离,即为:

a+b=|X1-X2|+|Y1-Y2|

再来看切比雪夫距离,在上述二维平面坐标示意图中,A与B之间的切比雪夫距离则是选取a、b中值最大的,若a》b,切比雪夫距离即等于a,其计算表达式为:

Max(|X1-X2|,|Y1-Y2|)

由此可看出,上述“欧曼雪”三种距离的实质分别如下:

- 欧氏距离 -

两个样本同一特征分量值差值的平方之和,再开平方根

- 曼哈顿距离 -

两个样本同一特征分量值差值的绝对值之和

- 切比雪夫距离 -

两个样本同一特征分量值差值的绝对值中的最大值

假如现在有三个人A、B和C(即样本A、样本B和样本C),我们需要以性格、爱好这两个属性为依据来判断他们的相似度,A、B、C的综合属性值则表示为:A(性格1,爱好1)、B(性格2,爱好2)、C(性格3,爱好3)。

我们设定上述性格、爱好等每个分量特征属性的取值范围为0—10分。以性格活泼、爱好打球具体属性为例,若性格很活泼,分值为10,若性格不活泼,分值则为0分,其余介于很活泼和不活泼之间的,则取0—10之间的分值;同理,若很爱打球,分值为10分,不爱打球,分值则为0分,其余介于很爱打球和不爱打球之间的,则取0—10之间的分值。

针对性格活泼、爱好打球的两项特征,假设A、B、C三人的取值分别如下:

我们现以上述A、B、C三个样本A(4,4)、B(9,5)、C(6,1)投影到二维坐标上,分别计算A、B样本之间和A、C样本之间各自的欧氏距离、曼哈顿距离和切比雪夫距离,参照二维坐标投影图,计算结果如下:

从上表结果可知,A、C两个样本的欧氏距离、曼哈顿距离和切比雪夫距离均小于A、B两个样本,因此,A与C的相似度较高。这一结果与二维坐标图上的直观显示相符(即线段AC《AB)。这也很容易理解,两点之间的直线距离越小,当然就越靠近,如果两点完全重合,那就是零距离。

闵氏距离

由上述例子的计算结果可知,尽管欧氏距离、曼哈顿距离和切比雪夫距离各自的定义和计算都不相同,但它们最终衡量的结果是相一致的。这三类距离也可归为闵氏距离。

闵氏距离也称闵可夫斯基距离,根据其变参数p的不同,可以归为不同类型的距离,比如:曼哈顿距离(p=1);欧氏距离(p=2);切比雪夫距离(p→∞)。

我们已经知道欧氏距离的实质是两个样本同一特征分量值差值的平方和,然后再开平方根,这里的平方指数就是闵氏距离的变参数p取2,如果平方指数(即2次方)换成其他次方(比如1,3,4次方等等),那就是其他类闵氏距离。

因此,也可以将闵氏距离看成是欧氏距离指数的推广距离,两者实质特点对比如下:

可见,闵氏距离不仅涵盖了“欧曼雪”三种距离,实则也是欧氏距离指数的推广(指数范围扩大到任意整数)距离。

当然,以上仅考虑了性格、爱好这两个特征属性来分析判断两个人的相似度。但是如果仅凭性格、爱好两个方面来预估两人的相似度,似乎有点过于简单粗暴,通常情况下,我们还要结合更多的特征因素来综合考虑,例如人生观、价值观、家庭背景等,从而得出更加准确的归类判断结果。如果在性格、爱好两个特征的基础上增加人生观这一特征因素来评判,A、B两人的综合属性值则表示为:A(性格1,爱好1,人生观1)、B(性格2,爱好2,人生观2),其具体特征值假设为:A(4,4,3)、B(9,5,6),在计算各类距离时,则相应增加人生观这一特征的差值。例如:

曼哈顿距离计算为:

|4-9|+|4-5|+|3-6|=9;

切比雪夫距离计算为:

Max(|4-9|,|4-5|,|3-6|)=Max(5,1,3)=5;

欧氏距离计算为:

(4-9)?+(4-5)?+(3-6)? =5?+1?+3?=35,再开平方根所得。

对比上表中两维的计算式,可见,增加了|3-6|或(3-6)?这一项差值。

同理,如果在性格、爱好、人生观这三个特征属性的基础上,还需考虑价值观、家庭背景这两个特征属性,总共就变成了五个分量特征,那就是五维的情形。在计算上述各类距离时,则相应增加价值观、家庭背景这两个分量特征的差值。

可见,每增加一个分量特征,维度就增加一个,计算距离时则相应增加该维度分量特征的差值。人工智能机器学习中,为了达到更准确的分类目的,往往要涉及非常多的维度,因而其计算量也相应增大。例如我们熟悉的人脸识别应用中通常采用512维特征向量,即有512个分量特征,以更好地区别出每一个人。

假设分别用两个特征向量:

A(X1, X2,....,X511, X512)

B(Y1, Y2,....,Y511, Y512)

来表示两个512维人脸特征数据,则该两个人脸样本之间的欧氏距离为:

( (Y1-X1) ?+(Y2-X2) ? +......+(Y511-X511) ? +(Y512-X512) ?)

计算求得512个分量值差的平方和,再开平方根,即为两者的欧氏距离。这就是高维欧氏距离的计算。

夹角余弦

除了以上各类常见的闵氏距离,还有一种较常用的距离,那就是夹角余弦。夹角余弦根据两个样本向量的夹角余弦值大小来确定样本的相似性。余弦值越接近1,余弦夹角就越接近0度,两个向量越相似。

现我们仍以简单的平面二维坐标的来了解夹角余弦的本质。以上述A、B、C三个样本A(4,4)、B(9,5)、C(6,1)为例,其在二维平面坐标的投影点如下图所示,从坐标原点O出发分别指向A、B、C三个点的线段(OA、OB、OC)则为A、B、C三个样本点的向量,A、B之间的向量夹角则为θ1,A、C之间的向量夹角则为θ2,根据三角形AOB的边长可计算出θ1的余弦值,根据三角形AOC的边长可计算出θ2的余弦值。θ1、θ2夹角示意图及其计算式如下表所示:

夹角余弦计算公式(二维)

根据两个样本的坐标值计算

余弦值取值范围为[-1,1]。余弦值越大,夹角越小。

A、B样本夹角余弦值

向量OA与OB之间的夹角余弦值

A、C样本夹角余弦值

向量OA与OC之间的夹角余弦值

可以得出θ1《θ2,从而得出A和B相似度高。

通过对比发现,以上夹角余弦相似度的判断结果与欧氏距离等的判断结果正好相反。这是为什么呢?这是因为欧氏距离和余弦相似度各自的计算方式和衡量角度不相同,欧氏距离关注的是两点之间的绝对距离,而夹角余弦相似度注重的是两个向量在方向上的差异,而非距离。如下二维坐标图中,有A、C两个样本,欧氏距离关注的是AC两点的直线段距离,与OA、OC线段长度密切相关;而夹角余弦则是关注OA线段与OC线段重合需扫过的角度(θ)大小,与OA、OC线段长度无关。因此,夹角余弦相似度是整体方向性上的判断,而欧氏距离则是各分量特征的绝对差值判断。

我们还可以用两个等边三角形的例子来具体了解两者的实质差别。假设有两个等边三角形T1和T2,其边长分别为8和4,现以三个边长为分量特征属性来表征三角形,其在三维空间的投影坐标点分别为T1(8, 8, 8)、T2(4, 4, 4)。由边长数值可知,两个等边三角形虽然边长差距大,但形状完全相似。从其投影坐标点可知,由于T1、T2各个边长分量差值相同,两个坐标点在三维空间坐标上投影方向完全相同。对T1、T2之间的欧氏距离及夹角余弦作对比如下:

从以上对比分析可以看出,欧氏距离和余弦相似度各自的评判标准不同,得出的结论也可能完全不同,因此,两者可根据适用的场合选择采用。欧氏距离适用于需要从每个分量特征差距中体现差异的分析,如通过用户行为指标分析用户价值相似度。余弦相似度更适用于综合性的导向评价,如通过用户对内容评分来区分用户兴趣的相似度等,余弦相似度也常用于计算两个文本之间的相似度。

以上各类常见的物理几何空间距离不仅容易理解,而且方便好用,在样本各个维度数据完整好的情况下具有较理想的预判效果。但同时这几类距离也存在着一些明显的不足,如缺乏考虑各分量之间的相关性影响、各分量特征侧重排序等。

例如上述的例子中,也许需要对性格、爱好、人生观、价值观、家庭背景等分量特征进行侧重排序,又或者人生观这一分量特征会对价值观、爱好等分量特征有影响。如需考虑分量相关性、个体相对于总体的比重等相关因素,更多则是采用基于概率统计的分布距离,较常用的有:马氏距离、巴氏距离、杰卡德相似系数、皮尔逊系数等。这些距离的计算多涉及统计学及概率论知识,因而相对较复杂。

但无论是物理几何空间距离,还是基于概率统计的分布距离,它们的中心思想都是统一的,那就是距离越近越相似。

距离

最新文章