开源大数据分析 实验笔记
通过本次实验您获得了√了解阿里云Elasticsearch集群创建登录的基础操作√学习MySQL数据同步至Elasticsearch的操作过程√实践体验Elasticsearch的信息检索加速效果
目标:
- 了解阿里云Elasticsearch集群创建登录的基础操作
- 学习MySQL数据同步至Elasticsearch的操作过程
- 实践体验Elasticsearch的信息检索加速效果
- 登录EMR集群。
- 通过ClickHouse集群创建本地表。
- 将数据随机写入ClickHouse集群各个节点的本地表。
- 查看数据。
- 学会采集系统数据和Nginx服务数据
- 学会配置指标分析看板,体验数据分析和运维的过程
使用产品:
实验一:使用阿里云Elasticsearch体验信息检索加速
1.登录阿里云控制台
2.登录Elasticsearch管理控制台
3. 登录Kibana,开启自动创建索引功能
-
在右侧概览页面Elasticsearch区域中,单击集群管理。
-
在Elasticsearch实例列表中,单击实例ID。
-
在左侧导航栏,选择配置与管理 > 可视化控制。
-
在Kibana区域中,单击公网入口。
-
复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至Kibana登录页面的账号和密码,单击登录。
-
在左侧导航栏,单击Dev Tools(开发工具),再单击Go to work。
-
在Console页签下,执行如下命令,开启阿里云ES实例的自动创建索引功能。
PUT _cluster/settings
{
"persistent": {
"action.auto_create_index": "true"
}
}
4. 通过DataWorks将MySQL数据同步至ES
-
复制如下阿里云DataWorks控制台地址至浏览器地址栏,登录DataWorks控制台。
https://workbench.data.aliyun.com/console?#/
-
在左侧导航栏,单击工作空间列表。
-
找到目标工作空间,单击其右侧操作列下的进入数据集成。
-
在左侧导航栏,单击数据源>数据源列表。
-
在数据源管理页面,单击新增数据源。
-
在新增数据源对话框中,单击MySQL,进入新增MySQL数据源对话框,配置如下数据源信息。
配置项 |
示例 |
说明 |
数据源名称 |
mysql_data |
可自定义 |
JDBC URL |
|
不可更改 |
用户名 |
zltest |
不可更改 |
密码 |
Elastic@123 |
7.在资源组选项中,单击更多选项,在警告对话框单击确定
8.配置完成后,单击测试连通性,可与公共资源组进行连通性测试。 连通状态显示为可连通时,表示连通成功,再单击完成。
9.使用同样的方式添加Elasticsearch数据源,配置数据源信息。
配置项 |
示例 |
说明 |
数据源名称 |
elasticsearch |
可自定义 |
Endpoint |
http://es-cn-*****************.public.elasticsearch.aliyuncs.com:9200 |
下划线处为ES公网地址,请进入Elasticsearch管理控制台,从Elasticsearch实例 > 基本信息复制 |
用户名 |
Elasticsearch登录名 |
不可更改 |
密码 |
Elasticsearch登录密码 |
不可更改 |
10.在资源组选项中,单击更多选项。
11.配置完成后,单击测试连通性,可与公共资源组进行连通性测试。 连通状态显示为可连通时,表示连通成功,再点击完成。
12.在左侧滑出窗口,单击DataStudio(数据开发)。
13.在DataWorks的数据开发页面,右键单击业务流程新建一个业务流程。
14.在新建业务流程对话框,输入业务名称,单击新建。
15展开新建的业务流程,右键单击数据集成,选择新建 > 离线同步。
16.在新建节点对话框中,输入节点名称(可自定义),单击提交。
17.在向导页分别配置数据来源端和写入端,配置如下所示:
18.单击一键生成目标索引,完成如下配置,单击新建索引。
19.单击右侧数据集成资源组配置。
20.单击更多选项,在警告对话框单击确定,在数据集成资源组配置对话框选择调试资源组。
21.提交任务
a、单击如下图标,保存当前配置和运行任务(保存配置后会出现“依赖的上游节点不允许为空。请至调度配置中添加依赖的上游节点”,可忽略,不影响数据同步业务流程)
b、任务运行过程中,可查看运行日志。运行成功后,显示如下结果
5.登录Kibana,体验信息检索加速
-
返回Kibana页面。
-
在左侧导航栏,单击Dev Tools(开发工具)。
-
复制如下链接至浏览器地址栏,复制页面代码。
https://labfileapp.oss-cn-hangzhou.aliyuncs.com/code
4.在Console页签下,执行命令,检索同时满足如下3个条件的新闻。
-
内容包含两个一百年,标题包含新华社长篇通讯的新闻;
-
过滤2017-01-18—2022-11-16期间的新闻;
-
对内容中匹配到的词高亮展示。
完成检索后,返回如下结果。
5.在左侧导航栏,单击Management,配置 index pattern,单击Create。
6.在左侧导航栏,单击Discover,在页面左上角单击Add a filter+,再单击Edit Query DSL。
7.在Filter输入第3步中复制的命令,删除其中的如下命令,单击Save。
8.单击右上角时间范围,选择Last 5 years,即展示可视化检索的新闻数据。
更多推荐
所有评论(0)