Data Engineering Essentials using SQL, Python, and PySpark
使用 SQL、Python 和 PySpark 的数据工程基础

Learn key Data Engineering Skills such as SQL, Python, Apache Spark (Spark SQL and Pyspark) with Exercises and Projects
通过练习和项目学习关键的数据工程技能,例如 SQL、Python、Apache Spark(Spark SQL 和 Pyspark)

教程演示🔗

你将学到什么

  • 设置环境以学习数据工程的SQL和Python要点
  • 使用Postgres进行数据工程的数据库基础知识,如创建表、索引、运行SQL查询、使用重要的预定义函数等。
  • 使用Python的数据工程编程要点,如基本编程构造、集合、Pandas、数据库编程等。
  • 使用Databricks的Spark Dataframe API(PySpark)的数据工程。学习所有重要的Spark数据框架API,如select、filter、groupBy、orderBy等。
  • 使用Spark SQL的数据工程(PySpark和Spark SQL)。了解如何使用SELECT、WHERE、GROUP BY、ORDER BY等编写高质量的
  • Spark SQL查询。
  • Spark元存储的相关性与数据框架与Spark SQL的集成
  • 使用Spark利用Python作为编程语言构建数据工程管道的能力
  • 在构建数据工程管道中使用不同的文件格式,如Parquet、JSON、CSV等
  • 使用Dataproc在GCP上安装Hadoop和Spark Cluster
  • 了解完整的Spark应用程序开发生命周期,使用Pyspark构建Spark应用软件。使用Spark UI查看应用程序。

要求

  • 配置不错的笔记本电脑(最低4 GB RAM和双核)
  • 使用可用信用卡或AWS Access注册GCP
  • 在云平台上设置自助实验室(除非您有信用卡,否则您可能需要支付相应的云费用)
  • CS或IT学位或有IT工作经验者优先

描述

作为本课程的一部分,您将学习与使用SQL、Python作为Hadoop、Hive或Spark SQL以及PySpark数据框架API构建数据管道相关的所有数据工程基础知识。您还将了解在多节点集群上使用Docker和PySpark的Python应用程序的开发和部署生命周期。您还将获得有关使用Spark UI查看Spark Jobs的基本知识。

关于数据工程

数据工程只是根据我们的下游需求处理数据。作为数据工程的一部分,我们需要构建不同的管道,如批处理管道、流式管道等。与数据处理相关的所有角色都合并在数据工程下。按照惯例,它们被称为ETL开发、数据仓库开发等。

以下是学习者在学习Python、SQL、PySpark等关键数据工程技能时必须面对的一些挑战。

与Apache Hadoop、Apache Spark、Apache Hive等一起工作,拥有合适的环境。

有适当支持的优质内容。

足够的任务和练习

本课程旨在为各级专业人员解决这些关键挑战,以获得所需的数据工程技能(Python、SQL和Apache Spark)。

设置环境以学习数据工程基础知识,如SQL(使用Postgres)、Python等。

在Postgres中设置练习SQL所需的表

使用WHERE、JOIN、GROUP BY、HAVING、ORDER BY等编写基本SQL查询并提供实际示例

高级SQL查询,包括累积聚合、排名等实际示例

涵盖与数据库相关的故障排除和调试的场景。

SQL查询的性能调整

SQL查询的练习和解决方案。

Python编程基础

Python数据工程集合

使用Pandas的数据处理或数据工程

2个带说明的实时Python项目(文件格式转换器和数据库加载器)

涵盖Python应用程序中故障排除和调试的场景

与使用Python的数据工程应用程序相关的性能调整场景

谷歌云平台入门,使用Databricks设置Spark环境

使用WHERE、JOIN、GROUP BY、HAVING、ORDER BY等实例编写基本的Spark SQL查询

在Spark SQL中创建增量表以及CRUD操作,如INSERT、UPDATE、DELETE、MERGE等

高级Spark SQL查询,包括排名等实际示例

Spark SQL与Pyspark的集成

深入报道用于性能调整的Apache Spark Catalyst Optimizer

阅读Spark SQL查询或Pyspark数据框架API的解释计划

深入报道柱状文件格式和使用分区进行的性能调整

本课程面向谁:

计算机科学或IT专业的学生或其他有志于进入IT行业的毕业生
希望过渡到数据工程角色的数据仓库开发人员
希望过渡到数据工程角色的ETL开发人员
希望转换到数据工程角色的数据库或PL/SQL开发人员
希望过渡到数据工程角色的BI开发人员
QA工程师学习数据工程
应用程序开发人员获得数据工程技能

发表回复

后才能评论

尊敬的用户,您好!由于部分培训机构和留学生的举报,近期导致网站大量链接暂时失效。对此给您带来的不便,我们深表歉意。任何链接失效的资源,欢迎您添加侧边栏二维码随时反馈,我们将在48小时内为您提供新的网盘链接。如果您对此不便感到不满,您也可在48小时内申请无理由退款。感谢您的理解与支持!

Windows播放器推荐:Potplayer Potplayer 是免费的 Windows 播放器,支持双字幕和自动翻译功能。以下是操作指南: 挂载字幕 加载中文字幕:右击选择 字幕 -> 字幕设置,取消“只匹配文件名字幕”选项。可调整字幕颜色、位置和大小。 双字幕设置:右击 字幕 -> 选择字幕 -> 次字幕输出,设置主字幕和次字幕。 自动翻译 若可访问 Google 翻译服务,选择 字幕 -> 实时字幕翻译,勾选 总是使用 和 Google Translate,即可实时翻译英文字幕。 Potplayer 让观看更智能,学习体验升级。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可联络站长解决。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源