[udemy]
使用AWS和Azure的Databricks进行数据工程|Data Engineering using Databricks on AWS and Azure

Build Data Engineering Pipelines using Databricks core features such as Spark, Delta Lake, cloudFiles, etc.
使用Databricks的核心功能(如Spark、Delta Lake、云文件等)构建数据工程管道。

教程演示🔗

学生数量:14,429 个学生

上次更新时间:2023年3月

教程评分:4.4

教程语言:英语

教程字幕:中文、英语字幕

本课程包括:在移动设备和电视上观看、结业证书、31 篇文章、55 个可下载资源、完整的永久访问权、18.5 小时 长的随选视频字幕

学习内容

1、利用Databricks功能的数据工程
2、DataBricks CLI 是一个用于管理数据工程管道中的文件、数据工程作业和集群的工具。
3、将使用PySpark开发的数据工程应用部署在作业集群上
4、部署使用PySpark开发的数据工程应用程序到作业集群上的Notebooks。
5、利用Spark SQL和Delta Lake执行CRUD操作,适用于数据工程应用或管道。
6、使用Pyspark进行数据工程应用或管道,利用Delta Lake执行CRUD操作。
7、设置开发环境以使用Databricks开发数据工程应用
8、使用Databricks集群构建Spark结构化流数据工程管道
9、使用Spark Structured Streaming的增量文件处理,借助Databricks Auto Loader处理云文件。
10、Auto Loader云文件发现模式概述 – 目录列表和文件通知
11、Auto Loader云文件发现模式之间的差异 – 目录列表和文件通知
12、传统Spark Structured Streaming与利用Databricks Auto Loader云文件进行增量文件处理之间的区别。

要求

1、使用Python编程的经验
2、使用Spark进行数据工程的经验
3、撰写和解读SQL查询的能力
4、这个课程非常适合有经验的数据工程师,将其作为专业技能之一,增加对Databricks的掌握。

课程介绍

作为本课程的一部分,你将学习如何使用云平台无关的Data Engineering技术Databricks。

数据工程是根据下游需求处理数据的过程。在数据工程中,你需要构建各种管道,如批处理管道和流处理管道等。与数据处理相关的所有角色通常都归于数据工程范畴,传统上称为ETL开发、数据仓库开发等。

Databricks是最受欢迎的云平台无关的数据工程技术栈。他们是Apache Spark项目的贡献者。Databricks运行时利用云的弹性提供Spark。使用Databricks,按需付费。随着时间的推移,他们提出了湖仓的概念,提供了传统BI以及AI和ML所需的全部功能。以下是Databricks的一些核心特性:

1. Spark – 分布式计算
2. Delta Lake – 执行CRUD操作,主要用于构建从数据湖文件中插入、更新和删除数据的能力。
3. cloudFiles – 利用云特性以增量方式高效获取文件。
4. Databricks SQL – 基于Photon的界面,优化用于报表和可视化查询,也用于即席分析。

课程大纲:

本课程将教你使用Databricks进行数据工程。

1. 开始使用Databricks
– 设置本地开发环境,使用Databricks开发数据工程应用
– 使用Databricks CLI管理与数据工程应用相关的文件、任务和集群
– Spark应用程序开发周期,构建数据工程应用
2. Databricks作业和集群
– 在Databricks作业集群上部署和运行Python应用
– 使用Notebooks在Databricks作业集群上部署和运行数据工程作业
3. 深入了解Delta Lake
– 使用Databricks平台上的DataFrame
– 使用Spark SQL深入了解Delta Lake
4. 建立数据工程管道
– 使用Spark Structured Streaming在Databricks集群上构建管道
– 利用Databricks自动加载器cloudFiles进行增量文件处理
5. cloudFiles文件发现模式概述
6. 使用Databricks SQL进行数据分析和报告
7. 将来几周会添加更多关于Pyspark、Spark with Scala、Spark SQL和流处理管道的内容

目标受众:

1. 具有Spark知识和经验的资深应用程序开发者,希望提升数据工程技能。
2. 有经验的数据工程师,希望在简历中增加Databricks技能。
3. 测试人员,希望通过Databricks提高数据工程应用的测试能力。

先决条件:

1. 计算机配置良好(至少4GB RAM,但8GB更佳)
2. 需要双核处理器,四核优先
3. Chrome浏览器
4. 高速互联网
5. 有效的AWS账户
6. 有效的Databricks账户(免费账户不足)

培训方法:

1. 自学模式:参考材料、代码片段和Udemy提供的视频。
2. 每周完成2个模块,每周投入4到5小时。
3. 完成所有任务以获得实际的Databricks经验。
4. 通过Udemy Q&A获取支持。

课程详细大纲:

1. 在Azure上开始使用Databricks
– 注册Azure账户
– 调整Azure vCPU配额
– 创建Azure Databricks工作区
– 启动Azure Databricks工作区或集群
– Azure Databricks UI快速浏览
– 创建单节点Azure Databricks集群
– 使用UI上传数据
– 使用Notebooks创建和验证文件
– 使用Azure Databricks笔记本开发Spark应用
2. Azure Databricks与Azure CLI
– 使用Azure CLI管理资源
– 使用Azure Portal Cloud Shell
– 在Mac和Windows上设置Azure CLI
3. 配置本地Databricks开发环境
– 设置单节点Databricks集群
– 安装Databricks Connect
– 与PyCharm集成
– 集成Glue Catalog
– 设置S3存储桶和权限
– 将S3桶挂载到Databricks集群
– 使用Databricks CLI
4. Databricks作业和集群
– 介绍Databricks作业和集群
– 创建Databricks池和集群
– 提交和运行作业
– 使用交互式Databricks集群运行作业
5. 在Databricks上部署和运行Spark应用
– 准备PyCharm和数据集
– 移动文件并重构代码
– 验证数据
– 为生产部署设置数据集
6. Delta Lake深度学习
– 使用Spark DataFrame与Databricks Delta Lake
– 创建和写入Delta格式数据
– 更新和删除数据
– 合并或更新数据
7. 使用Spark SQL深入理解Delta Lake
– 创建Delta Lake表
– 插入、更新和删除数据
– 合并数据
– 使用Spark SQL进行点照相恢复和维护
8. 通过Web和SSH访问Databricks集群终端
9. 在Databricks上安装软件和使用初始化脚本
10. Spark Structured Streaming简介
11. 使用Databricks进行增量加载
12. Databricks SQL集群概述
13. 使用Databricks SQL进行数据加载、分析和查询

请确保你已经在自己的电脑上实践这些内容,并处理相关AWS、Azure和Databricks的费用。


课程名称:提升数据工程技能:Databricks实战教程

在我们的”数据工程进阶:Databricks在云端的卓越实践”课程中,你将深入学习如何利用Databricks这一强大的数据工程工具。无论你是Spark专家还是经验丰富的数据工程师,都将有机会掌握:

– **无依赖云平台的Data Engineering**:利用Databricks的灵活性,构建高效批处理和流处理管道。
– **Apache Spark与Delta Lake**:理解分布式计算的力量,以及如何在Delta Lake上执行CRUD操作。
– **云文件管理**:通过cloudFiles实现数据湖的增量加载,提升性能。

课程大纲覆盖:
1. Databricks入门:本地开发环境设置与作业集群管理
2. Delta Lake实战:DataFrame与Spark SQL的深度应用
3. 数据管道构建:Structured Streaming与cloudFiles的整合
4. 数据分析与报告:Databricks SQL的高效查询与可视化
5. 专业级技能提升:Pyspark、Scala、流处理管道扩展

目标学员:
– 寻求数据工程技能升级的开发人员
– 已有经验数据工程师,寻求Databricks技术认证
– 测试人员,期待提升测试效率

先决条件:
– 基础硬件配置
– 熟悉AWS和Azure
– Databricks账户(免费试用)

学习路径:
– Azure Databricks基础设置
– 本地开发环境配置
– 作业与集群管理
– 实战项目演练与优化

立即加入我们,通过实际操作提升你的数据工程能力,让搜索引擎也能注意到你的专业知识!

发表回复

后才能评论

尊敬的用户,您好!由于部分培训机构和留学生的举报,近期导致网站大量链接暂时失效。对此给您带来的不便,我们深表歉意。任何链接失效的资源,欢迎您添加侧边栏二维码随时反馈,我们将在48小时内为您提供新的网盘链接。如果您对此不便感到不满,您也可在48小时内申请无理由退款。感谢您的理解与支持!

Windows播放器推荐:Potplayer Potplayer 是免费的 Windows 播放器,支持双字幕和自动翻译功能。以下是操作指南: 挂载字幕 加载中文字幕:右击选择 字幕 -> 字幕设置,取消“只匹配文件名字幕”选项。可调整字幕颜色、位置和大小。 双字幕设置:右击 字幕 -> 选择字幕 -> 次字幕输出,设置主字幕和次字幕。 自动翻译 若可访问 Google 翻译服务,选择 字幕 -> 实时字幕翻译,勾选 总是使用 和 Google Translate,即可实时翻译英文字幕。 Potplayer 让观看更智能,学习体验升级。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可联络站长解决。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源