21世纪职业介绍——大数据工程师
发布时间:2022-10-24 11:13:43 所属栏目:大数据 来源:
导读: 摘要
本文通过描述互联网行业大数据工程师的工作内容和能力要求,旨在向在校学生或民间兴趣群体,介绍当前时期大数据工程师所扮演的角色。伴随着数字经济的蓬勃发展,大数据浪潮席卷而来。文章结合自身经
本文通过描述互联网行业大数据工程师的工作内容和能力要求,旨在向在校学生或民间兴趣群体,介绍当前时期大数据工程师所扮演的角色。伴随着数字经济的蓬勃发展,大数据浪潮席卷而来。文章结合自身经
|
摘要 本文通过描述互联网行业大数据工程师的工作内容和能力要求,旨在向在校学生或民间兴趣群体,介绍当前时期大数据工程师所扮演的角色。伴随着数字经济的蓬勃发展,大数据浪潮席卷而来。文章结合自身经历和阅历,对当前时期大数据工程师所处的工作环境,以及所面临的挑战进行了论述。 大数据工程师的工作工作意义 业务决策和程序开发过程,对于数据的依赖与日俱增。从产品到运营,从算法到服务端,诸多岗位的日常工作都需要结合数据展开。天猫商城的广告产品团队,会根据不同方案下的用户点击率数据来决定最终的广告交互形态;抖音的运营团队会根据数据量化内容的受欢迎程度,选择某些具有爆发潜力的内容进入热榜或者其他活动页面;算法工程师会根据应用后台积累的数据,制作用于训练机器模型的数据集;服务端研发会根据应用数据来监测异常指标变动,分析业务功能策略的有效性了;经营团队会根据应用中的数据表现,调整投资或者管理目标。根据不同产品方案下用户的反馈数据来选择最终方案的一整套流程和方法,被互联网行业称为ABTest。数据就像是导航仪,指引着企业在商海大洋中驶向正确的方向。大数据工程师是数据时代涌现的技术岗位之一。对于世界级的互联网应用产品来说,数据的规模是极其庞大的。这些数据的生产和加工往往需要在成千上万台计算设备组成的集群上完成,并用于每天成千上万的业务决策或者功能模块开发。从数据仓库的构建,再到数据中台概念的提出,大数据工程师所提供的数据服务正变得越来越全面,其在现代企业中的作用也日益凸显。 工作挑战 现代社会对数据的依赖程度日渐加深,大数据工程师将面对越发复杂的问题和挑战。这种挑战可以分为两种,其一是数据规模迅猛增长带来的挑战,另一种则是需求复杂度日渐提升带来的挑战。多数情况下,大数据工程师的工作是将来自不同业务系统的数据分类整合,并向外输出易用的消息记录或者数据指标,例如不同地区的热门内容,不同群体用户的兴趣差异,不同市场的用户指标,不同系统的性能表现,以及不同模型的效果度量等等。随着产品的成熟和发展,用户规模的增长会提升数据计算和存储的成本,并给原有的计算存储方案带来新的挑战。与此同时,业务的发展变化也会带来新的需求,会导致数据的生产逻辑变得日益复杂。以计算活跃用户数量为例,一款应用在刚发布初期,用户数量大约在几十万,用户数据可以存储在一台服务器上,在计算每日活跃用户数据时,一台机器可以快速地完成统计;后来这款应用的用户增长到了千万级别,积累的用户数据存储分散存储在几十台机器组成的集群上,普通的单台机器已经无法用常规的内存运算去快速统计每日活跃用户了。除此之外,业务上为了实现策略优化,还会产生构建用户画像的需求,例如需要统计发生某些行为的用户群体的活跃度,这必然会涉及到不同数据源之间的数据融合,而更复杂的关联计算方式会催生更多对于算力的需求。为了应对业务快速变化带来的挑战,数据团队的架构设计和模型设计水平都需要持续提升。 互联网行业内部习惯将提供基础通用数据服务的部门称为数据中台。数据中台作为向整个公司输出数据的部门,是无法了解每一个用户是怎样将数据作用于业务的。为了便于理解和管理,评价数据服务水平的指标一般被概括为两项,即数据的准确性和数据的时效性。数据的准确性关注的是数据是否能真实反应业务的真实情况;数据的时效性关注的是数据从产生到用于分析决策之间经历的时延。数据工程师需要保证关键数据的及时产出,以及数据口径的准确性,努力为业务决策提供及时、可靠的数据参考。通常在解决某些比较复杂的问题时,需要参考各种不同来源的数据,例如需要分析不同人群的行为特点时,需要同时使用用户画像数据和用户行为数据。因此行业大数据,除了关注数据的准确性和时效性之外,数据中台团队也需要不断丰富数据仓库中的内容。为了便于管理,需求满足率通常被用于量化数据服务所能提供的内容是否足够充分。这些指标能够从一定程度上反应数据服务团队水平,但在某些情况下可能会有失公平,需要全面看待。例如基础架构的故障会影响数据的及时生产,服务端的数据缺失会导致某些分析无法开展。 对于一名应征大数据工程师岗位的学生而言,计算机基础知识和编码能力依然是重要的考察内容,这点与互联网公司其他技术岗位并无差异。除此之外,对于大数据领域知识、系统设计能力或者项目经验的考察将因人而异,如有亮点,这将会成为加分项。对于综合素质的考察会穿插在整场面试过程中,或者在压轴环节出现。下表针对不同考察内容推荐了一些学习资料和建议,内容来自个人阅历和互联网,仅供参考。 展望 数据驱动业务增长的案例不断累积,社会对于数据工程师的需求必将进一步增长。2020年8月,专注于 data-warehouse-as-a-service 的 Snowflake IPO 估值已超过 700 亿美金。Spark,Flink,Data Lake 等计算存储技术的不断进步也推动者大数据工程技术的发展。社会需求增加和技术进步会带来对于大数据工程师的需求增长。在泛信息技术专业毕业生的主要就业方向中,相比算法工程师和服务端研发岗位,大数据工程师的待遇水平相当,但竞争同一岗位的应聘者相对较少。 总结 除了物质回报,大数据工程师的工作经历能带来什么收获呢?数据团队作为现代企业的数据中枢。能接触到各种不同的业务部门,能够更加全面地了解公司的业务全貌。除此之外,数据工程师日常工作能接触到许多数据驱动业务增长的案例,多多观察,可以总结出一整套利用数据推动业务发展的方法论,只要能灵活运用,不可谓没有想象空间。 (编辑:草根网_盐城站长网 ) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330471号