机器学习/数据挖掘面试问题——第10章 降维与度量学习
kNN:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个样本,然后基于这k个邻居的信息来进行预测,通常在分类任务中可以采用投票法,在回归任务中可以采用平均法,还可以根据距离远近进行加权平均或加权投票。
·
学习路线参考《机器学习》周志华
其他参考书:《机器学习实战》《数据挖掘》《百面机器学习》
还在更新ing...
1.什么是k近邻学习?
kNN:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个样本,然后基于这k个邻居的信息来进行预测,通常在分类任务中可以采用投票法,在回归任务中可以采用平均法,还可以根据距离远近进行加权平均或加权投票。
2.维数灾难是指什么?
在高维情形下,出现的数据样本稀疏、距离计算困难等问题。
3.降维
直接降维:特征选择,线性降维:PCA、MDS,非线性降维:流形学习(Isomap、LLE)
3.1 PCA
主成分分析(PCA,Principal Component Analysis) 用随机向量少量的线性变换代表原随机向量,并尽可多地保留有效信息。

更多推荐



所有评论(0)