79. 0基础如何体系化学习数据仓库?

数据仓库学习 编程语言 数据源 计算引擎 开源组件 云端平台 数仓建设
本文为零基础学习者提供了体系化学习数据仓库的指南。首先,建议选择Java作为编程语言,并学习Hive SQL。在数据源层面,掌握MySQL和Kafka等工具的基本使用即可。计算引擎方面,需了解MapReduce、Spark和Flink等离线与实时引擎的特性及运行流程。开源组件方面,推荐学习Sea Tunnel、DataX、Flink CDC等数据同步工具,以及Dolphin Scheduler或Azkaban等调度工具,同时理解HDFS和OLAP的基本概念。对于云端数据平台,有条件者可自行购买或通过语兴提供的账号进行学习。最后,建议通过B站课程了解数仓建设思想,掌握数仓的日常工作和版图内容。
文章内容
思维导图
常见问题
社交分享
  • 语言层面:需要选择一门编程语言(包括java python scala,这里建议选择java,课程可在b站随意搜,建议学韩顺平的 )及hive sql(hive 学习可跟着踏踏实实练sql 去学)。
  • 数据源层面:关系型数据库(这里建议MySQL),中间件(这里建议kafka ),会用即可,不需要精通到源码。
  • 计算引擎层面:需要学习离线引擎mapreduce spark 等,实时计算引擎flink ,作为数据仓库同学这里不建议学到源码级别,只需要会用,明白组件特性,清楚运行流程即可。
  • 开源组件层面:会用抽取工具完成日常数据同步(这里离线建议学sea tunnel或datax ,实时建议学flink cdc),调度工具(这里建议学dolphin scheduler或Azkaban),明白hdfs 概念及原理,了解olap其中一种即可(这里查询olap建议学impala olap库建议学Doris)
  • 云端数据平台:有条件的同学可以自己购买,当然语兴也会为星球同学准备数据平台账号使用,帮助大家了解数据平台,知道数据平台里面内容,从而可以应对未来使用数据平台的公司,语兴同时在b站也为大家准备了数据平台使用课程。
  • 数仓建设思想:跟着我b站课程-数仓建设学习路线,了解数仓日常都在做什么,数仓版图有哪些内容,如何去做。

思维导图生成中,请稍候...

问题 1: 作为零基础学习者,应该选择哪种编程语言来学习数据仓库?
回答: 建议选择Java作为入门编程语言,可以在B站搜索相关课程,推荐学习韩顺平的课程。

问题 2: 在学习数据仓库时,需要掌握哪些数据源相关的技术?
回答: 需要掌握关系型数据库(如MySQL)和中间件(如Kafka),但只需会使用,无需深入源码。

问题 3: 数据仓库学习中需要了解哪些计算引擎?
回答: 需要学习离线引擎(如MapReduce、Spark)和实时计算引擎(如Flink),了解组件特性和运行流程即可,无需深入源码。

问题 4: 在开源组件层面,有哪些工具是必须掌握的?
回答: 需要掌握数据同步工具(如Sea Tunnel或DataX)、调度工具(如Dolphin Scheduler或Azkaban),了解HDFS概念及原理,并掌握一种OLAP工具(如Impala或Doris)。

问题 5: 如何学习云端数据平台的使用?
回答: 可以自己购买云端数据平台,或者通过语兴提供的账号进行学习。语兴在B站也提供了相关课程,帮助了解数据平台的内容和使用方法。

问题 6: 如何系统地学习数仓建设思想?
回答: 可以通过B站课程“数仓建设学习路线”进行学习,了解数仓的日常工作内容、版图构成以及如何建设数仓。

问题 7: 在学习数据仓库时,是否需要精通所有技术的源码?
回答: 不需要精通源码,只需会使用并了解组件特性和运行流程即可。

问题 8: 在学习过程中,如何选择合适的OLAP工具?
回答: 建议选择一种OLAP工具进行学习,查询类推荐Impala,OLAP库推荐Doris。

问题 9: 学习数据仓库是否需要购买云端数据平台?
回答: 有条件的同学可以购买,但语兴也为星球同学提供了数据平台账号,帮助大家学习。

问题 10: 学习数据仓库的路径是什么?
回答: 从编程语言(如Java)、数据源(如MySQL、Kafka)、计算引擎(如Spark、Flink)、开源工具(如Sea Tunnel、Dolphin Scheduler)到云端数据平台,逐步深入学习,同时掌握数仓建设思想。