
大数据技术复习--大数据分析
大数据分析简单介绍
机器学习
机器学习与深度学习最大的区别在于是否手动提取特征
- 数据预处理
- 去噪、缺失属性处理
- 数据规范化
所谓数据规范化就是将数据按比例缩放,使之落入一个小的特定区间
方法:- 最小-最大规范化
x ′ = x − m i n m a x − m i n ⋅ ( n e w _ m a x − n e w _ m i n ) + n e w _ m i n x' = \dfrac{x - min}{max - min} \cdot (new\_max - new\_min) + new\_min x′=max−minx−min⋅(new_max−new_min)+new_min - Z分数规范化,是数据标准统一化,提高数据可比性
x ′ = x − μ σ x' = \dfrac{x - \mu}{\sigma} x′=σx−μ
- 最小-最大规范化
2. 度量方法:
-
Jaccard相似系数, 它是通过计算样本的交集和并集之间差异的相似度算法
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ = ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ − ∣ A ∩ B ∣ J(A, B) = \dfrac{|A \cap B|}{|A \cup B|} = \dfrac{|A \cap B|}{|A| + |B| - |A \cap B|} J(A,B)=∣A∪B∣∣A∩B∣=∣A∣+∣B∣−∣A∩B∣∣A∩B∣
在集合A和集合B中,两者的交集越多,则表示两者相似度越高
Jaccard的相似性与集合的顺序无关,仅与在集合中是否出现有关,即为二值数据,不是0则是1,是一种简单的相似性方法,实质是集合交集与并集的比值 -
余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似性
对于二维空间的两个向量来说
c o s θ = x 1 x 2 + y 1 y 2 x 1 2 + y 1 2 × x 2 2 + y 2 2 cos \theta = \dfrac{x_1 x_2 + y_1 y_2}{\sqrt{x_1^2 + y_1^2} \times \sqrt{x_2^2 + y_2^2}} cosθ=x12+y12×x22+y22x1x2+y1y2
对于任意两个n维样本向量,两个的余弦公式为
c o s θ = ∑ i = 1 n ( x i × y i ) ∑ i = 1 n x i 2 × ∑ i = 1 n y i 2 cos \theta = \dfrac{\sum \limits^n_{i = 1}(x_i \times y_i)}{\sqrt{\sum\limits^n_{i= 1} x_i^2}\times \sqrt{\sum\limits^n_{i = 1}y_i^2}} cosθ=i=1∑nxi2×i=1∑nyi2i=1∑n(xi×yi)
总结为
对应相乘相加 各自平方和开根号之和 \dfrac{对应相乘相加}{各自平方和开根号之和} 各自平方和开根号之和对应相乘相加
- 距离度量法
详情见距离度量
习题:
- 特征工程
特征工程是利用领域知识从原始数据中提取用于后续机器学习及数据挖掘应用的特征(向量)的过程- 特征表示
- one-hot编码,one-hot向量为有且只有一个元素为1,其余元素都为0的向量
- 语义编码
- 相关系数
- 特征选择
- 按搜索策略划分特征选择算法
- 评价函数
- 特征提取
- PCA无监督线性降维方法
- LDA线性判别分析,监督线性降维
- ICA独立分量分析
- 特征表示
特征提取:作为机器学习中一个前处理步骤,在降维、去除不相关和冗余的数据,增能够增加机器学习效率和效果,是大规模机器学习中必不可少的流程
特征提取与特征选择有很大的不同:两者都是数据降维的手段,前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征,后者是将这些特征应用到机器学习
更多推荐
所有评论(0)