Data Engineering using AWS Data Analytics
通过AWS数据分析服务构建数据工程管道相关课程学习
学习内容:
– 利用AWS数据分析服务下的各项服务进行数据工程相关操作,涵盖AWS的基础服务如s3、IAM、EC2等。
– 深入学习AWS s3用于云存储的相关知识,包含其版本控制、跨区域复制、存储类别的内容,以及如何通过AWS CLI管理s3的桶和对象等操作。
– 掌握AWS IAM用户、组、角色和策略管理用于基于角色的访问控制(RBAC),能通过Web控制台、CLI等方式创建和管理相关元素,理解身份策略、自定义策略等。
– 了解AWS EC2实例(虚拟机)的基础与进阶内容,像创建密钥对、启动实例、连接实例、管理实例生命周期、分配静态IP等,还包括利用引导脚本安装额外软件以及创建和验证AMI等操作。
– 运用AWS Lambda函数进行数据摄入,包括函数的本地开发、部署到控制台、利用其实现下载和上传功能、维护书签以及结合AWS Event Bridge进行调度等内容。
– 熟悉AWS Glue组件,例如创建爬虫、目录表、作业、触发器、工作流,通过AWS Athena验证Glue表,还会深入探索Glue目录相关特性及API,利用书签进行增量加载相关操作。
– 学习基于Pyspark开发Spark应用的生命周期,涵盖搭建虚拟环境、安装Pyspark、在不同环境下运行Spark应用、处理数据以及代码生产化等内容。
– 掌握AWS EMR(弹性映射化简)集群相关知识,包括集群规划、创建、配置、连接、监控,在集群上部署Spark应用以及不同部署模式下运行Spark应用等操作,还涉及利用EMR处理数据、操作s3文件等内容。
– 构建使用AWS Kinesis的流数据摄入管道,涉及使用Kinesis Firehose Agent和Delivery Stream从日志文件读取数据并摄入到AWS s3,配置相关权限、验证代理等操作。
– 用Python将GitHub数据填充到AWS Dynamodb,包含安装所需库、理解GitHub API、设置API令牌、进行数据提取、处理以及对Dynamodb进行表创建、CRUD操作和批处理操作等内容。
– 学习Amazon AWS Athena的相关操作,如通过Web控制台进行基本的DDL和DML(CRUD)操作、利用AWS CLI和Python boto3与之交互、创建分区表、进行数据验证以及查询结果处理等内容。
– 掌握Amazon AWS Redshift相关知识,从通过免费试用创建集群,到利用查询编辑器进行CRUD操作,再到复制数据从s3到Redshift表、处理Redshift集群相关的网络设置、联邦查询、Spectrum查询等进阶内容,还涉及创建带有分布键和排序键的表以及应用开发等操作。
本课程包括
– 25.5小时的按需视频
– 112篇文章
– 18个可下载资源
– 支持在移动设备和电视上访问
– 提供结业证书
价格:$54.99
教程评分:评分4.5分(共2290个评分)
教程语言:英语
教程字幕:中英文字幕
课程要求:
– 电脑需至少具备8GB内存。
– 最好具备Python编程经验,因为部分主题会用Python演示。
– 最好具备SQL使用经验,部分内容会使用SQL展示。
– 若有使用Pandas或Pyspark的数据工程经验更好。
课程描述:
数据工程旨在构建数据管道,将数据从多个来源导入数据湖或数据仓库,再从数据湖或数据仓库传输到下游系统。本课程将引导学员学习如何使用AWS数据分析服务栈构建数据工程管道,涵盖Glue、Elastic Map Reduce(EMR)、Lambda函数、Athena、EMR、Kinesis等诸多服务。适合初学者或中级数据工程师、中级应用工程师、数据与分析工程师以及测试人员等,帮助他们学习使用AWS数据分析服务进行数据工程相关操作,掌握关键技能。
B站免费课程