[udemy]
使用AWS和Azure的Databricks进行数据工程|Data Engineering using Databricks on AWS and Azure
Build Data Engineering Pipelines using Databricks core features such as Spark, Delta Lake, cloudFiles, etc.
使用Databricks的核心功能(如Spark、Delta Lake、云文件等)构建数据工程管道。
教程演示🔗
学生数量:14,429 个学生
上次更新时间:2023年3月
教程评分:4.4
教程语言:英语
教程字幕:中文、英语字幕
本课程包括:在移动设备和电视上观看、结业证书、31 篇文章、55 个可下载资源、完整的永久访问权、18.5 小时 长的随选视频字幕
学习内容
1、利用Databricks功能的数据工程
2、DataBricks CLI 是一个用于管理数据工程管道中的文件、数据工程作业和集群的工具。
3、将使用PySpark开发的数据工程应用部署在作业集群上
4、部署使用PySpark开发的数据工程应用程序到作业集群上的Notebooks。
5、利用Spark SQL和Delta Lake执行CRUD操作,适用于数据工程应用或管道。
6、使用Pyspark进行数据工程应用或管道,利用Delta Lake执行CRUD操作。
7、设置开发环境以使用Databricks开发数据工程应用
8、使用Databricks集群构建Spark结构化流数据工程管道
9、使用Spark Structured Streaming的增量文件处理,借助Databricks Auto Loader处理云文件。
10、Auto Loader云文件发现模式概述 – 目录列表和文件通知
11、Auto Loader云文件发现模式之间的差异 – 目录列表和文件通知
12、传统Spark Structured Streaming与利用Databricks Auto Loader云文件进行增量文件处理之间的区别。
要求
1、使用Python编程的经验
2、使用Spark进行数据工程的经验
3、撰写和解读SQL查询的能力
4、这个课程非常适合有经验的数据工程师,将其作为专业技能之一,增加对Databricks的掌握。
课程介绍
作为本课程的一部分,你将学习如何使用云平台无关的Data Engineering技术Databricks。
数据工程是根据下游需求处理数据的过程。在数据工程中,你需要构建各种管道,如批处理管道和流处理管道等。与数据处理相关的所有角色通常都归于数据工程范畴,传统上称为ETL开发、数据仓库开发等。
Databricks是最受欢迎的云平台无关的数据工程技术栈。他们是Apache Spark项目的贡献者。Databricks运行时利用云的弹性提供Spark。使用Databricks,按需付费。随着时间的推移,他们提出了湖仓的概念,提供了传统BI以及AI和ML所需的全部功能。以下是Databricks的一些核心特性:
1. Spark – 分布式计算
2. Delta Lake – 执行CRUD操作,主要用于构建从数据湖文件中插入、更新和删除数据的能力。
3. cloudFiles – 利用云特性以增量方式高效获取文件。
4. Databricks SQL – 基于Photon的界面,优化用于报表和可视化查询,也用于即席分析。
课程大纲:
本课程将教你使用Databricks进行数据工程。
1. 开始使用Databricks
– 设置本地开发环境,使用Databricks开发数据工程应用
– 使用Databricks CLI管理与数据工程应用相关的文件、任务和集群
– Spark应用程序开发周期,构建数据工程应用
2. Databricks作业和集群
– 在Databricks作业集群上部署和运行Python应用
– 使用Notebooks在Databricks作业集群上部署和运行数据工程作业
3. 深入了解Delta Lake
– 使用Databricks平台上的DataFrame
– 使用Spark SQL深入了解Delta Lake
4. 建立数据工程管道
– 使用Spark Structured Streaming在Databricks集群上构建管道
– 利用Databricks自动加载器cloudFiles进行增量文件处理
5. cloudFiles文件发现模式概述
6. 使用Databricks SQL进行数据分析和报告
7. 将来几周会添加更多关于Pyspark、Spark with Scala、Spark SQL和流处理管道的内容
目标受众:
1. 具有Spark知识和经验的资深应用程序开发者,希望提升数据工程技能。
2. 有经验的数据工程师,希望在简历中增加Databricks技能。
3. 测试人员,希望通过Databricks提高数据工程应用的测试能力。
先决条件:
1. 计算机配置良好(至少4GB RAM,但8GB更佳)
2. 需要双核处理器,四核优先
3. Chrome浏览器
4. 高速互联网
5. 有效的AWS账户
6. 有效的Databricks账户(免费账户不足)
培训方法:
1. 自学模式:参考材料、代码片段和Udemy提供的视频。
2. 每周完成2个模块,每周投入4到5小时。
3. 完成所有任务以获得实际的Databricks经验。
4. 通过Udemy Q&A获取支持。
课程详细大纲:
1. 在Azure上开始使用Databricks
– 注册Azure账户
– 调整Azure vCPU配额
– 创建Azure Databricks工作区
– 启动Azure Databricks工作区或集群
– Azure Databricks UI快速浏览
– 创建单节点Azure Databricks集群
– 使用UI上传数据
– 使用Notebooks创建和验证文件
– 使用Azure Databricks笔记本开发Spark应用
2. Azure Databricks与Azure CLI
– 使用Azure CLI管理资源
– 使用Azure Portal Cloud Shell
– 在Mac和Windows上设置Azure CLI
3. 配置本地Databricks开发环境
– 设置单节点Databricks集群
– 安装Databricks Connect
– 与PyCharm集成
– 集成Glue Catalog
– 设置S3存储桶和权限
– 将S3桶挂载到Databricks集群
– 使用Databricks CLI
4. Databricks作业和集群
– 介绍Databricks作业和集群
– 创建Databricks池和集群
– 提交和运行作业
– 使用交互式Databricks集群运行作业
5. 在Databricks上部署和运行Spark应用
– 准备PyCharm和数据集
– 移动文件并重构代码
– 验证数据
– 为生产部署设置数据集
6. Delta Lake深度学习
– 使用Spark DataFrame与Databricks Delta Lake
– 创建和写入Delta格式数据
– 更新和删除数据
– 合并或更新数据
7. 使用Spark SQL深入理解Delta Lake
– 创建Delta Lake表
– 插入、更新和删除数据
– 合并数据
– 使用Spark SQL进行点照相恢复和维护
8. 通过Web和SSH访问Databricks集群终端
9. 在Databricks上安装软件和使用初始化脚本
10. Spark Structured Streaming简介
11. 使用Databricks进行增量加载
12. Databricks SQL集群概述
13. 使用Databricks SQL进行数据加载、分析和查询
请确保你已经在自己的电脑上实践这些内容,并处理相关AWS、Azure和Databricks的费用。
课程名称:提升数据工程技能:Databricks实战教程
在我们的”数据工程进阶:Databricks在云端的卓越实践”课程中,你将深入学习如何利用Databricks这一强大的数据工程工具。无论你是Spark专家还是经验丰富的数据工程师,都将有机会掌握:
– **无依赖云平台的Data Engineering**:利用Databricks的灵活性,构建高效批处理和流处理管道。
– **Apache Spark与Delta Lake**:理解分布式计算的力量,以及如何在Delta Lake上执行CRUD操作。
– **云文件管理**:通过cloudFiles实现数据湖的增量加载,提升性能。
课程大纲覆盖:
1. Databricks入门:本地开发环境设置与作业集群管理
2. Delta Lake实战:DataFrame与Spark SQL的深度应用
3. 数据管道构建:Structured Streaming与cloudFiles的整合
4. 数据分析与报告:Databricks SQL的高效查询与可视化
5. 专业级技能提升:Pyspark、Scala、流处理管道扩展
目标学员:
– 寻求数据工程技能升级的开发人员
– 已有经验数据工程师,寻求Databricks技术认证
– 测试人员,期待提升测试效率
先决条件:
– 基础硬件配置
– 熟悉AWS和Azure
– Databricks账户(免费试用)
学习路径:
– Azure Databricks基础设置
– 本地开发环境配置
– 作业与集群管理
– 实战项目演练与优化
立即加入我们,通过实际操作提升你的数据工程能力,让搜索引擎也能注意到你的专业知识!