Data Engineering Essentials using SQL, Python, and PySpark
使用 SQL、Python 和 PySpark 的数据工程基础
Learn key Data Engineering Skills such as SQL, Python, Apache Spark (Spark SQL and Pyspark) with Exercises and Projects
通过练习和项目学习关键的数据工程技能,例如 SQL、Python、Apache Spark(Spark SQL 和 Pyspark)
教程演示🔗
你将学到什么
- 设置环境以学习数据工程的SQL和Python要点
- 使用Postgres进行数据工程的数据库基础知识,如创建表、索引、运行SQL查询、使用重要的预定义函数等。
- 使用Python的数据工程编程要点,如基本编程构造、集合、Pandas、数据库编程等。
- 使用Databricks的Spark Dataframe API(PySpark)的数据工程。学习所有重要的Spark数据框架API,如select、filter、groupBy、orderBy等。
- 使用Spark SQL的数据工程(PySpark和Spark SQL)。了解如何使用SELECT、WHERE、GROUP BY、ORDER BY等编写高质量的
- Spark SQL查询。
- Spark元存储的相关性与数据框架与Spark SQL的集成
- 使用Spark利用Python作为编程语言构建数据工程管道的能力
- 在构建数据工程管道中使用不同的文件格式,如Parquet、JSON、CSV等
- 使用Dataproc在GCP上安装Hadoop和Spark Cluster
- 了解完整的Spark应用程序开发生命周期,使用Pyspark构建Spark应用软件。使用Spark UI查看应用程序。
要求
- 配置不错的笔记本电脑(最低4 GB RAM和双核)
- 使用可用信用卡或AWS Access注册GCP
- 在云平台上设置自助实验室(除非您有信用卡,否则您可能需要支付相应的云费用)
- CS或IT学位或有IT工作经验者优先
描述
作为本课程的一部分,您将学习与使用SQL、Python作为Hadoop、Hive或Spark SQL以及PySpark数据框架API构建数据管道相关的所有数据工程基础知识。您还将了解在多节点集群上使用Docker和PySpark的Python应用程序的开发和部署生命周期。您还将获得有关使用Spark UI查看Spark Jobs的基本知识。
关于数据工程
数据工程只是根据我们的下游需求处理数据。作为数据工程的一部分,我们需要构建不同的管道,如批处理管道、流式管道等。与数据处理相关的所有角色都合并在数据工程下。按照惯例,它们被称为ETL开发、数据仓库开发等。
以下是学习者在学习Python、SQL、PySpark等关键数据工程技能时必须面对的一些挑战。
与Apache Hadoop、Apache Spark、Apache Hive等一起工作,拥有合适的环境。
有适当支持的优质内容。
足够的任务和练习
本课程旨在为各级专业人员解决这些关键挑战,以获得所需的数据工程技能(Python、SQL和Apache Spark)。
设置环境以学习数据工程基础知识,如SQL(使用Postgres)、Python等。
在Postgres中设置练习SQL所需的表
使用WHERE、JOIN、GROUP BY、HAVING、ORDER BY等编写基本SQL查询并提供实际示例
高级SQL查询,包括累积聚合、排名等实际示例
涵盖与数据库相关的故障排除和调试的场景。
SQL查询的性能调整
SQL查询的练习和解决方案。
Python编程基础
Python数据工程集合
使用Pandas的数据处理或数据工程
2个带说明的实时Python项目(文件格式转换器和数据库加载器)
涵盖Python应用程序中故障排除和调试的场景
与使用Python的数据工程应用程序相关的性能调整场景
谷歌云平台入门,使用Databricks设置Spark环境
使用WHERE、JOIN、GROUP BY、HAVING、ORDER BY等实例编写基本的Spark SQL查询
在Spark SQL中创建增量表以及CRUD操作,如INSERT、UPDATE、DELETE、MERGE等
高级Spark SQL查询,包括排名等实际示例
Spark SQL与Pyspark的集成
深入报道用于性能调整的Apache Spark Catalyst Optimizer
阅读Spark SQL查询或Pyspark数据框架API的解释计划
深入报道柱状文件格式和使用分区进行的性能调整
本课程面向谁:
计算机科学或IT专业的学生或其他有志于进入IT行业的毕业生
希望过渡到数据工程角色的数据仓库开发人员
希望过渡到数据工程角色的ETL开发人员
希望转换到数据工程角色的数据库或PL/SQL开发人员
希望过渡到数据工程角色的BI开发人员
QA工程师学习数据工程
应用程序开发人员获得数据工程技能