机器学习是什么,第1张

机器学习是一门多学科交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂性理论等诸多学科。专攻计算机如何模拟或实现人类的学习行为,从而获得新的知识或技能,重组已有的知识结构,不断提高自身的表现。

机器学习是一门多学科交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂性理论等诸多学科。专攻计算机如何模拟或实现人类的学习行为,从而获得新的知识或技能,重组已有的知识结构,不断提高自身的表现。

机器学习是什么,机器学习是什么,第2张

它是人工智能的核心,是使计算机智能化的根本途径。

定义

机器学习是一门交叉学科,涵盖概率论、统计学、近似理论和复杂算法等知识。它以计算机为工具,致力于实时模拟人类学习,将已有的内容划分为知识结构,有效提高学习效率。

机器学习有以下定义:

(1)机器学习是人工智能的一门科学。该领域的主要研究对象是人工智能,尤其是如何提高经验学习中具体算法的性能。

(2)机器学习是通过经验可以自动改进的计算机算法的学习。

(3)机器学习利用数据或过去的经验来优化计算机程序的性能标准。

发展历史

机器学习实际上已经存在了几十年或几个世纪。早在17世纪,贝叶斯、拉普拉斯的最小二乘法推导和马尔可夫链构成了机器学习中广泛使用的工具和基础。从1950年(艾伦·图灵提出构建学习机)到2000年初(随着深度学习的实际应用和最近的进展,比如2012年的AlexNet),机器学习取得了很大的进步。

自20世纪50年代机器学习研究以来,不同时期的研究方法和目标不同,可分为四个阶段。

第一个阶段是从50年代中期到60年代中期,期间主要研究“有无知识学习”。这种方法主要研究系统的执行能力。这期间系统反馈的数据主要是通过改变机器环境及其对应的性能参数来检测的,就像给系统一个程序一样。通过改变他们的自由空交互,系统会受到程序的影响,改变自己的组织。最后,系统会选择一个最优的环境来生存。这一时期最具代表性的研究是萨穆特的象棋程序。但是这种机器学习的方法远远不能满足人类的需求。

第二阶段是从60年代中期到70年代中期。在此期间,主要的研究是将各个领域的知识植入系统。这个阶段的目的是模拟人类通过机器学习的过程。同时,用图结构及其逻辑结构的知识来描述系统。在这个研究阶段,主要使用各种符号来表示机器语言。研究人员在进行实验时意识到学习是一个长期的过程,他们无法从这个系统环境中学习到更深入的知识。因此,研究人员将专家和学者的知识添加到系统中。实践证明,该方法取得了一定的效果。在这一阶段,代表性的工作包括海斯-罗斯和温森的系统学习结构方法。

第三阶段,从70年代中期到80年代中期,称为文艺复兴。这一时期,人们从学习单一概念扩展到学习多个概念,探索不同的学习策略和学习方法。在这个阶段,人们开始将学习系统与各种应用相结合,并取得了巨大的成功。同时,专家系统在知识获取方面的需求极大地刺激了机器学习的研究和发展。在第一个专家学习系统出现后,范例归纳学习系统成为研究的主流,自动知识获取成为机器学习应用的研究目标。1980年,第一届机器学习国际会议在卡耐基梅隆大学(CMU)召开,标志着机器学习研究在全世界的兴起。从此,机器学习得到了广泛的应用。1984年,西蒙和20多位人工智能专家撰写的《机器学习语料库》第二卷出版,国际杂志《机器学习》创刊,进一步显示了机器学习的快速发展趋势。这一阶段的代表性工作包括莫斯托的引导式学习、莱纳特的数学概念发现计划、兰利的培根计划及其改进计划。

第四阶段是80年代中期机器学习的最新阶段。这个时期的机器学习有以下特点:

(1)机器学习已经成为一门新兴学科,它综合应用心理学、生物学、神经生理学、数学、自动化和计算机科学,形成机器学习的理论基础。

(2)各种学习方法、各种形式的一体化学习系统正在出现。

(3)机器学习和人工智能各种基础问题的统一正在形成。

(4)各种学习方法的应用范围不断扩大,部分应用研究成果转化为产品。

(5)与机器学习相关的学术活动在空之前活跃。

研究现状

机器学习是人工智能和模式识别领域的一个共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。2010年图灵奖得主是哈佛大学的莱斯利·弗利安特教授。他的获奖工作之一是建立了概率近似正确(PAC)的学习理论;2011年图灵奖得主是加州大学洛杉矶分校的朱迪亚·皮尔尔教授,他的主要贡献是建立了一种基于概率统计的人工智能方法。这些研究成果促进了机器学习的发展和繁荣。

机器学习是研究如何利用计算机模拟或实现人类学习活动的科学,是人工智能中最智能、最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现人工智能的一种方式,在人工智能领域引起了广泛的兴趣。特别是近几十年来,机器学习领域的研究工作发展迅速,已经成为人工智能的重要课题之一。机器学习不仅应用于基于知识的系统,还广泛应用于自然语言理解、非单调推理、机器视觉、模式识别等诸多领域。一个系统是否具有学习能力,已经成为“智能”的标志。机器学习的研究主要分为两个研究方向:一是传统机器学习的研究,主要研究学习机制,重点探索模拟人的学习机制;第二类是大数据环境下的机器学习研究,主要研究如何有效利用信息,注重从海量数据中获取隐藏的、有效的、可理解的知识。

经过70年的曲折发展,以深度学习为代表的机器学习借鉴了人脑的多层结构、神经元连接和交互信息的逐层分析处理机制、自适应和自学习的强大并行信息处理能力,在多个方面取得了突破性进展,其中最具代表性的是图像识别领域。

机器学习的分类

近几十年来,研究中发表的机器学习方法有很多种,根据侧重点的不同,分类方法也有很多。

基于学习策略的分类

(1)模拟人脑的机器学习

符号学习:模拟人脑的宏观心理学习过程。它以认知心理学原理为基础,以符号数据为输入,以符号运算为方法,利用推理过程在图形或状态之间进行搜索空。学习目标是概念或规则等。符号学习的典型方法有记忆学习、举例学习、演绎学习、类比学习、解释学习等。

神经网络学习(或称连接学习):模拟人脑的微生理学习过程,基于脑和神经科学原理,以人工神经网络为功能结构模型,以数值数据为输入,以数值运算为方法,利用迭代过程在系数向量空之间进行搜索,学习目标为函数。典型的连接学习包括权值修正学习和拓扑结构学习。

(2)直接使用数学方法的机器学习

主要有统计机器学习。

统计机器学习是基于对数据的初步理解和学习目的的分析,选择合适的数学模型,拟定超参数,输入样本数据,按照一定的策略用合适的学习算法训练模型,最后用训练好的模型对数据进行分析和预测。

统计机器学习的三个要素:

模型:模型在训练之前,其可能的参数很多甚至无穷大,所以可能的模型也很多甚至无穷大,这些模型组成的集合在假设空之间。

战略:从假设中选择具有最佳参数的模型的标准空。模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。那么策略就是尽量减少错误。

算法:从假设中选择模型的方法空(相当于求解最佳模型参数)。机器学习的参数求解通常转化为优化问题,所以学习算法通常是优化算法,如最速梯度下降法、牛顿法、拟牛顿法。

常见算法

决策树算法

决策树及其变种是将输入空划分为不同区域的算法,每个区域都有独立的参数。决策树算法充分利用了树模型。根节点到叶节点的路径规则是一个分类,每个叶节点象征一个判断类别。首先将样本划分为不同的子集,然后进行分段递归,直到每个子集得到相同类型的样本,从根节点到子树再到叶节点进行测试,即可得到预测类别。该方法具有结构简单、数据处理效率高的特点。

朴素贝叶斯算法

朴素贝叶斯算法是一种分类算法。它不是一个单一的算法,而是一系列的算法,所有的算法都有一个共同的原理,就是每一个分类的特征都与其他任何特征的价值无关。朴素贝叶斯分类器认为这些“特征”中的每一个都独立地贡献概率,而不管特征之间的任何相关性。然而,特征并不总是独立的,这通常被认为是朴素贝叶斯算法的一个缺点。简而言之,朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。与其他常用的分类方法相比,朴素贝叶斯算法需要较少的训练。预测之前唯一要做的工作就是找到特征的个体概率分布的参数,这通常可以快速而明确的完成。这意味着即使对于高维数据点或大量数据点,朴素贝叶斯分类器也能表现良好。

支持向量机算法

基本思路可以概括为:首先要用一个变换来使空高维,当然这个变换是非线性的,然后在新的复数空之间选择最优的线性分类面。这样得到的分类函数在形式上类似于神经网络算法。支持向量机(SVM)是统计学习领域的一种代表性算法,但它与传统的思维方式有很大的不同。它可以通过输入空和提高维数来缩短问题,使问题化为线性可分的经典解问题。支持向量机应用于垃圾邮件识别、人脸识别等分类问题。

随机森林算法

有许多方法可以控制数据树的生成。根据以往的经验,大多数情况下首选拆分属性和剪枝,但这并不能解决所有问题,偶尔会出现过多的噪音或拆分属性。基于这种情况,可以通过总结每次的结果得到自掏腰包数据的估计误差,并结合测试样本的估计误差来评估组合树学习器的拟合和预测精度。该方法具有产生高精度分类器、处理大量变量、平衡分类数据集间误差等优点。

人工神经网络算法

人工神经网络类似于由神经元组成的极其复杂的网络,由单个单元连接而成。每个单元都有数字输入输出,形式可以是实数或线性组合函数。它需要按照一个学习原则去学习,才能工作。当网络出现误判时,可以通过学习降低犯同样错误的可能性。该方法具有很强的泛化能力和非线性映射能力,可以用较少的信息对系统进行建模。从功能模拟的角度来看,它具有并行性和极快的信息传输速度。

推进和打包算法

Boosting是一种通用的回归分析算法,用于增强基本算法的性能。不需要构造高精度的回归分析,只需要一个粗糙的基本算法,通过反复调整基本算法就可以得到更好的组合回归模型。它可以将弱学习算法改进为强学习算法,并可以应用于其他基本的回归算法,如线性回归、神经网络等。,以提高准确度。装袋与前一种算法类似,但略有不同。主要思想是给出已知的弱学习算法和训练集。需要几轮计算才能得到预测函数序列。最后通过投票来判断例子。

关联规则算法

关联规则使用规则来描述两个或多个变量之间的关系,这是反映数据本身性质的一种客观方式。它是机器学习的一个主要任务,可以分为两个阶段。首先从数据集中找到高频项目组,然后研究它们的关联规则。分析结果是变量间规律的总结。

期望最大化算法

在机器学习过程中,需要使用最大似然估计等参数估计方法。当存在潜在变量时,通常选择EM算法,而不是直接估计函数对象,加入一些数据简化计算,然后最大化仿真。它是对有限或难以直接处理的数据的最大似然估计算法。

深度学习

深度学习是机器学习领域的一个新的研究方向。将其引入机器学习,使其更接近最初的目标——人工智能(AI)。

深度学习是学习样本数据的内在规律和表征水平,学习过程中获得的信息对文字、图像、声音等数据的解读有很大帮助。它的最终目的是使机器像人类一样具有分析学习能力,能够识别文字、图像、声音等数据。深度学习是一种复杂的机器学习算法,在语音和图像识别方面取得的效果远远超过以往的相关技术。

深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术等相关领域取得了很多成果。深度学习使机器模仿人类的视听、思维等活动,解决了许多复杂的模式识别问题,在人工智能相关技术上取得了长足的进步。

app应用

机器学习应用广泛,在军事和民用领域都有展示机器学习算法的机会,包括以下几个方面。

数据分析和挖掘

“数据挖掘”和& # 8221;“数据分析”通常是比较的,被认为是一个在很多场合可以互相替代的术语。关于数据挖掘,有许多不同的定义,但含义相似,如“在海量数据中识别有效、新颖、潜在有用和最终可理解的模式的重要过程”。数据分析和数据挖掘都是帮助人们收集和分析数据,使之成为信息,做出判断,所以可以统称为数据分析和挖掘。

数据分析与挖掘技术是机器学习算法和数据访问技术的结合。它通过机器学习提供的统计分析和知识发现来分析海量数据,并通过数据访问机制来实现数据的高效读写。机器学习在数据分析和挖掘领域发挥着不可替代的作用。Hadoop在2012年进入机器学习领域,就是一个很好的例子。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 机器学习是什么

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情