Apache Spark 和 PySpark 用于数据工程和大数据
学习 Apache Spark 和 PySpark 构建可扩展数据管道,处理大数据并实施有效的 ML 工作流程
学习内容:
* 理解大数据基础知识:解释大数据的关键概念以及从 Hadoop 到 Spark 的演变。
* 掌握 Spark 架构:描述 Apache Spark 的核心组件和架构,包括 RDD、DataFrames 和 Datasets。
* 安装和配置 Spark:以本地和独立模式设置 Spark 进行开发和测试。
* 编写 PySpark 程序:使用 Python 创建和运行 PySpark 应用程序,包括对 RDD 和 DataFrames 的基本操作。
* 掌握 RDD 操作:执行 map、filter、reduce、groupBy 等转换和动作,利用缓存和持久化优化性能。
* 使用 SparkContext 和 SparkSession:理解其角色并在 PySpark 应用中有效管理。
* 操作 DataFrames:创建、操作和优化结构化数据处理的 DataFrames。
* 在 SparkSQL 中运行 SQL 查询:将 SQL 与 DataFrame 操作集成。
* 处理多种数据格式:读取/写入 CSV、JSON、Parquet、Avro 等格式,通过分区和存储桶优化数据存储。
* 构建数据管道:设计和实现批处理与实时数据管道。
* 学习 Spark Streaming 基础:使用结构化流和 Kafka 集成处理实时数据。
* 优化 Spark 应用:通过执行模型、DAG、shuffle 操作和内存管理调整性能。
* 利用高级 Spark 功能:使用连接、聚合、窗口函数等进行复杂数据转换。
* 探索 Spark 内部结构:深入理解 Catalyst 优化器、广播和分区技术。
* 学习 Spark MLlib 基础:构建机器学习管道,应用线性回归、逻辑回归等算法。
* 开发实时流应用:实现状态流、处理延迟数据、管理容错。
* 完成顶点项目:设计端到端数据管道,集成批处理、流处理与机器学习。
* 为行业角色做准备:通过 Spark 技能提升简历,应对数据和 ML 工程技术面试。
课程内容主题:
* Spark 框架与 PySpark 介绍
* Spark 及其组件详解
* Python 大数据编程基础(数据类型、控制结构、函数等)
* NumPy 与 Pandas 数据分析
* 数据清洗与预处理
* Matplotlib 与 Seaborn 可视化
* 机器学习模型构建
* Spark Streaming 实时处理
* SparkSQL 与 DataFrame 高级操作
* 数据存储与管理(Parquet、ORC 等格式)
* Spark 内部执行模型与优化技术
* MLlib 机器学习实践
* Kafka 集成与容错机制
* 生产环境 Spark Streaming 部署
* 端到端数据管道项目实战
课程要求:
* 热情和决心让你在世界上留下自己的印记!
* 具备基础编程知识(Python 优先)
* 对大数据处理、数据工程或机器学习领域感兴趣
* 有 ETL 工具使用经验者优先
课程详细描述:
* **课程目标**:全面掌握 Apache Spark 和 PySpark 的核心概念、架构及应用,能够独立设计并实施大规模数据处理、实时流分析和机器学习管道。
* **课程亮点**:
* 从零基础到高级应用,涵盖 Spark 核心组件(RDD、DataFrame、Dataset)及 MLlib 机器学习库。
* 结合实际案例,学习数据清洗、转换、聚合、存储优化等全流程数据工程技能。
* 掌握 Spark Streaming、Kafka 集成、状态管理、容错机制等实时处理技术。
* 通过 Capstone 项目实战,构建端到端数据管道,提升工程化能力。
* **适用人群**:
* 数据工程师、大数据开发人员、数据科学家、机器学习工程师
* 有志于转型数据领域的软件工程师、ETL 开发者
* 需要提升大数据处理能力的 IT 专业人士、数据库管理员
* 学生及应届毕业生(需具备基础编程能力)
* **技术优势**:
* Spark 的内存计算与分布式架构显著提升处理速度,支持 PB 级数据处理。
* PySpark 提供 Pythonic 接口,无缝集成 Pandas、NumPy 等工具,降低学习门槛。
* 社区活跃,资源丰富,适配企业级大数据场景(如金融、电商、物联网等)。
* **职业发展**:
* 高需求技能:Spark 和 PySpark 是企业大数据分析的必备工具,市场需求旺盛。
* 高薪岗位:数据工程师、大数据开发、机器学习工程师等岗位薪资水平较高。
* 技术深度:掌握 Spark 内部执行模型(DAG、Catalyst 优化器)、调优技巧,提升系统性能。




![[udemy] 面向数据工程师的Master Azure Databricks|Databricks – Master Azure Databricks for Data Engineers](https://img-c.udemycdn.com/course/240x135/3460790_207f_7.jpg)
