大数据开发日常工作内容大剖析,干货满满!
比如之前要进行as数据库扩容,虽然已经深入评估扩容方案,以及对应突发问题的应对措施,但还是遇到了一些问题,然后记录日志后找对应的社区工作人员沟通咨询(国外的,所以都是邮件英文沟通的),做大数据平台开发的基本都是大佬了。有问题向上反馈,遇事不决向上请示,也是一定好处的。平常还是写sql比较多,flink sql、hive sql、udf,还有就是写写kafka 的数据处理的source/sink,优
大家好,今天来介绍一下大数据开发工程师日常工作内容,当然大数据开发细分了很多不同的工作方向,就目前所在公司来说,大数据开发分以下几个工作方向:大数据平台开发、ETL工程师、数仓工程师、大数据实时开发。
一、大数据平台开发
主要是开发维护大数据平台的性能和稳定,包括维护和监控各个组件的运行情况,如果有告警进行处理。要求代码能力比较强,对各个大数据组件源码和底层原理了解透彻。比如之前要进行as数据库扩容,虽然已经深入评估扩容方案,以及对应突发问题的应对措施,但还是遇到了一些问题,然后记录日志后找对应的社区工作人员沟通咨询(国外的,所以都是邮件英文沟通的),做大数据平台开发的基本都是大佬了。
二、ETL工程师
主要负责数据的提取、转换和加载工作。具体的话就是将各个业务系统的数据,如oracle,数据高效加载到大数据仓库里面,证数据提取的准确性和数据提取的时效性,处理效率等。主要用到各种抽数工具+sql,常用Sqoop。
三、数仓工程师
主要负责设计、构建、维护和优化数据仓库。根据业务需求或者数据现状,规划并开发数据仓库的整体架构,开发各种业务领域的数据集市,给BI报表、监控大屏、以及公司里各种用数需求,保证数据仓库的开发规范,和业务的用数规范。主要用到批处理的调度组件+python+spark+sql等,写sql,再优化sql。
三、大数据实时开发
主要负责实时数据的处理,如搭建实时数仓,开发实时数据处理平台,承接业务实时用数需求,满足实时用数场景。密切监控大数据集群的性能指标,及时处理节点故障、资源不足等问题,不断优化数据处理流程和算法,提升数据处理效率,当然还要排查各类数据保障问题。主要用到flink、kafka、flume、hbase、hive、es、doris等。
对于大数据运维、数据分析,这些其实不想再做介绍,运维的话几乎都是通用的,技能体系有所差异,数据分析跟数据挖掘属于更偏向业务分析领域了。
说下我的个人感受:
平常还是写sql比较多,flink sql、hive sql、udf,还有就是写写kafka 的数据处理的source/sink,优化实时数据处理的平台,维护一些数据大屏,做各种关键数据指标的监控,优化系统,排查问题等等。
最讨厌的一点就是如果半夜、或者周末有任务出问题了,运维或项目经理直接打电话过来,远程解决,或者是节假日搞营销活动时,需要偶尔的远程支持配合。其他的感觉还行。当然了,很多时候也是要跨团队沟通、掰扯,跟领导汇报工作情况,所有有时候学会怎么做事,怎么汇报也是有点重要的。有问题向上反馈,遇事不决向上请示,也是一定好处的。
上面的岗位,有些公司会细分项目组,有些不分,可能每个工作内容都可能涉及到到,但基本上的技术栈大差不差,掌握好了做啥都可以!
欢迎大家点击关注,并星标🌟公众号【姝果荔】,更新不迷路!
PS:评论区留下你最想看到的内容主题~
更多推荐


所有评论(0)