大数据架构简述(四):机器学习和数据挖掘
1.概念机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery i
1.概念
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
2.机器学习的学习方式
1)监督式学习
输入“训练数据”,每组数据有明确的标识或结果。监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。监督学习的常见应用场景包括分类问题和回归问题,常见算法有逻辑回归和BP神经网络
2)非监督式学习
数据并不被特别标识,学习模型是为了推断出数据的一个潜在结构。常见的应用场景包括关联规则学习和聚类等。常见算法包括Apriori算法和K-Means算法
3)半监督式学习
输入数据部分被标识,部分没有标识。这种学习模型可以用来预测,但是模型首先要学习数据的内在结构,以便合理地组织数据进行预测。其应用场景包括分类和回归,常见算法是对监督式学习算法的延伸。这些算法首先试图对未标记的数据建模,然后在此基础上进行预测
3.机器学习的算法似然性
1)回归算法
2)基于实例的算法
3)正则化算法
4)决策树算法
5)贝叶斯算法
6)基于核的算法
7)聚类算法
8)关联规则学习
9)人工神经网络算法
10)深度学习算法Deep Learning(深度学习)学习笔记整理
更多推荐
所有评论(0)