项目工具 AZKABAN KYLIN FineBI

文章目录一、AZKABAN1、安装2、使用方法I know, i know地球另一端有你陪我一、AZKABAN一个 JAVA 编写的、开源的，任务调度工具linux 中自带 crontab 的调度工具，但是只能够定时启动而较难处理多个任务调度之间的依赖关系1、安装1 上传解压文件unzip azkaban-solo-server.zip2 修改配置文件中的时区vim conf/azkaban.pr

韭菜盒子

614人浏览 · 2022-01-17 19:35:08

韭菜盒子 · 2022-01-17 19:35:08 发布

文章目录

一、AZKABAN
- 1、安装
- 2、使用方法
二、KYLIN
- 1、安装
- 2、使用方法
三、FineBI
零碎

I know, i know
地球另一端有你陪我

一、AZKABAN

一个 JAVA 编写的、开源的，任务调度工具
linux 中自带 crontab 的调度工具，但是只能够定时启动
而较难处理多个任务调度之间的依赖关系

1、安装

1 上传解压文件

unzip azkaban-solo-server.zip

2 修改配置文件中的时区

vim conf/azkaban.properties

// 修改时区
default.timezone.id=Asia/Shanghai

3 启动貌似一定要在外面一层启动，很怪

cd /usr/local/soft/azkaban-solo-server

./bin/start-solo.sh

4 访问 azkaban 控制页面

http://master:8081

用户名 / 密码：azkaban / azkaban

5 添加邮箱，可选操作


vim conf/azkaban.properties

mail.sender 发送方
mail.host  邮箱服务器的地址
mail.user 用户名
mail.password 授权码

增加以下配置
mail.sender=987262086@qq.com
mail.host=smtp.qq.com
mail.user=987262086@qq.com
mail.password=aaaaa


重启azkaban
cd /usr/local/soft/azkaban-solo-server
关闭
./bin/shutdown-solo.sh
启动
./bin/start-solo.sh

2、使用方法

1 先新建一个项目（projet）
在这里插入图片描述

2 接着需要现在网页中下载配置模板
在这里插入图片描述

3 会得到一个压缩包（jobs.zip），包含两个文件
flow20.project（这个是配置对应的版本号，不用改）
basic.flow（这个是需要修改的指令文件）

---
config:
  day_id: $(new("org.joda.time.DateTime").minusDays(1).toString("yyyyMMdd"))

nodes:

  - name: start-dwd-res-regn-mergelocation-msk-d
    type: command
    config:
      command: sh /home/dwd/start-dwd-res-regn-mergelocation-msk-d.sh ${day_id}


  - name: start-dws-staypoint-msk-d
    type: command
    config:
      command: sh /home/dws/start-dws-staypoint-msk-d.sh  ${day_id}
    dependsOn:
      - start-dwd-res-regn-mergelocation-msk-d


  - name: start-ads-city-tourist-msk-d
    type: command
    config:
      command: sh /home/ads/start-ads-city-tourist-msk-d.sh  ${day_id}
    dependsOn:
      - start-dws-staypoint-msk-d

config
获得当前时间，再减去 1 （T - 1 原则）

node
需要调度的指令，需要注意的是，由于无法在文件路径下直接启动指令
因此需要写绝对路径的
相对的，sh 文件中的路径，也需要使用绝对路径，
在 sh 脚本文件中添加以下指令可以获取并进入脚本执行位置，让代码相对简洁

#获取脚本所在目录
shell_home="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"

#进入脚本目录
cd $shell_home

4 修改完之后，打包回 zip 文件，并上传
在这里插入图片描述
5 进入项目后，可以选择执行调度或执行一次。之后就是点点点了

6 此处可以看到历史任务和过程日志等

二、KYLIN

Apache Kylin是一个开源的、分布式的分析型数据仓库，
提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力，
以支持超大规模数据，能在亚秒内查询巨大的表

会将表中按照提供的高频字段作为维度预计算，将可能会使用的结果提前运算储存

1、安装

要求虚拟机主节点（master）的内存达到 3G 以上

1 上传解压配置环境变量

tar -xvf apache-kylin-2.5.0-bin-hbase1x.tar.gz
mv apache-kylin-2.5.0-bin-hbase1x kylin-2.5.0

2 添加环境变量，需要额外添加一个 hive 配置的路径

export KYLIN=/usr/local/soft/kylin-2.5.0/bin
export HIVE_CONF=/usr/local/soft/hive-1.2.1/conf

由于目前还用不到 kafka 可以先注释掉，并

unset KAFKA_HOME

3 在 master 启动 jobhistory

mr-jobhistory-daemon.sh start historyserver

4 启动 zookeeper

zkServer.sh start
zkServer.sh status

5 启动 hbase

start-hbase.sh

6 验证环境是否可行，并启动

check-env.sh

kylin.sh start

7 访问 KYLIN

http://master:7070/kylin

用户名 / 密码
ADMIN / KYLIN

2、使用方法

1 新建项目 No1_tour 在这里插入图片描述
2 从 hive 中获取数据（会自动连接到 hive 数据库）请添加图片描述
3 起始页新建 model，注意这两处选择维度、度量，和最后的分区字段格式

维度：表在聚合时，可能作为聚合标准的字段
请添加图片描述
度量：在完成聚合后，会作为计算标准的字段
分区字段选择与格式

4 起始页新建 cube（立方）

选择 model 中的所有维度
请添加图片描述
选择可能产生的运算（默认提供一个 count，好像不能直接均值，这里算一个 sum）

选择运算到的最大维度，每次必须添加的维度，次优选维度
和使用的计算框架（MR 或 Spark）建议使用 MR，Spark 非常容易崩

后面一路确定即可，最后将数据的状态改为 build，并选择时间分区
请添加图片描述
5 运算完成后就可以在首页使用 sql 语言进行数据查询

三、FineBI

可以将数据库中的数据查询结果转换为图像进行展示，例如刚刚使用 KYLIN
linux 的安装包是一个 .sh 脚本文件，直接运行就可以安装

1 需要先在 finebi 安装目录中添加 kylin 连接 jar 包

cd /usr/local/soft/finebi/webapps/webroot/WEB-INF/lib

2 如果已经打开，需要关闭进行并重启

ps -aux | grep finebi
kill -9 关闭的进程

3 重启，bin 目录下

./finebi

4 页面访问
http://master:37799/webroot/decision

5 设置完账号密码即可开始使用
请添加图片描述
6 添加 kylin 连接

7 添加新分组和业务包

8 添加新查询并保存

9 最后新建仪表盘，进去拖拉拽

零碎

关于如何重置 hbase
1 停止 hbase

stop-hbase.sh

2 删除数据

hadoop dfs -rmr /hbase

3 删除元数据

zkCli.sh
rmr /hbase

4 重新启动 habase

start-hbase.sh

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【金融风控-贷款违约预测】数据挖掘学习：1.赛题理解

学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程。了解赛题赛题概况比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平

永洪数据分析社区

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么？”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因，业务人员会通过使用多维查询、dashboard等数据产品锁定问题，再辅助人工分析查找问题原因，这个过程通常需要一天时间。几乎每种业务角色的用户都在做相似的分析，但在业务方分析人员发生工作变动时，分析方法难以得到较好传承。因此我们需要一款自动给出分析结论的智能化数据产品来解决上面的问题，

永洪数据分析社区

数据挖掘实验一：分类技术——二分网络上的链路预测

实验一：分类技术——二分网络上的链路预测实验内容采用二分网络模型，对ml-1m文件夹中的“用户—电影”打分数据进行建模，考虑将用户信息、电影详细信息、以及打分分值作为该网络上的边、点的权重；根据网络结构特征给出节点相似性度量指标；基于相似性在二分网络上进行链路预测；画出ROC曲线来度量预测方法的准确性。分析及设计导入数据并初步分析处理数据：观察所给的文件类型为.dat格式，即纯文本格式，pytho