大数据进阶之算法——Spark ML库VectorAssemble详解
VectorAssemble是将给定列列表组合成单个向量列的转换器。为了训练逻辑回归和决策树等ML模型,将原始的多个特征列组合成一个特征向量是很有用的。VectorAssemble将接受一下的输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。示例:以下是我的一些项目模拟数据原始数据集:处理后的数据集:VecotrAssemble代码实现://nu
·
VectorAssemble是将给定列列表组合成单个向量列的转换器。为了训练逻辑回归和决策树等ML模型,将原始的多个特征列组合成一个特征向量是很有用的。VectorAssemble将接受一下的输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。
示例:
以下是我的一些项目模拟数据
原始数据集:
处理后的数据集:
VecotrAssemble代码实现:
//num_fmt为原始数据集
val va = new VectorAssembler()
.setInputCols(Array("province_id","city_id","district_id","sex","marital_status","education_id","vocation","position","compId","mslevel","reg_date","lasttime","age","user_score","logincount","buycount","pay"))
.setOutputCol("orign_feature")
val ofdf = va.transform(num_fmt).select("cust_id","orign_feature")
ofdf.show(false)
更多推荐
所有评论(0)