教程演示🔗

你会学到什么

  • 学习多种缺失数据插补技术。
  • 将分类变量转换为数字,同时捕获有意义的信息。
  • 了解如何处理不常见、稀有和看不见的类别。
  • 了解如何使用偏态变量。
  • 将数值变量转换为离散变量。
  • 从变量中删除异常值。
  • 从日期和时间变量中提取有用的特征。
  • 学习在全球组织和数据竞赛中使用的技术。
  • 增加预处理数据和构建更强大的机器学习模型的技术库。

要求

  • Python 安装。
  • Jupyter 笔记本安装。
  • Python编码技巧。
  • 一些使用 Numpy 和 Pandas 的经验。
  • 熟悉机器学习算法。
  • 熟悉 Scikit-Learn。

描述

欢迎来到机器学习的特征工程,这是在线提供的最全面的特征工程课程。在本课程中,您将学习变量插补、变量编码、特征转换、离散化以及如何从数据中创建新特征。

掌握特征工程和特征提取。

在本课程中,您将学习多种特征工程方法,这些方法可以让您转换数据并准备好训练机器学习模型。具体来说,您将学习:

  • 如何估算缺失数据
  • 如何编码分类变量
  • 如何转换数值变量并改变它们的分布
  • 如何进行离散化
  • 如何删除异常值
  • 如何从日期和时间中提取特征
  • 如何从现有功能创建新功能

使用数学、统计学和领域知识创建有用的特征

特征工程是转换现有特征或创建新变量以用于机器学习的过程。原始数据不适合训练机器学习算法。相反,数据科学家将大量时间用于数据预处理。本课程将教授您需要了解的一切知识,让您的数据为训练模型做好准备。

虽然大多数在线课程会教你特征工程的基础知识,比如用均值插补变量或使用一种热编码转换分类变量,但本课程会教你这些,以及更多。

在本课程中,您将首先学习最流行和广泛使用的变量工程技术,例如均值和中值插补、one-hot 编码、对数变换和离散化。然后,您将发现更高级的方法,这些方法可以在编码或转换变量时捕获信息以提高机器学习模型的性能。

您将学习金融中使用的证据权重等方法,以及如何在变量和目标之间创建单调关系以提高线性模型的性能。您还将学习如何从日期和时间变量创建特征,以及如何处理具有很多类别的分类变量。

您将学习的方法在科学文章中有所描述,在数据科学竞赛中使用,并且在组织中普遍使用。更重要的是,它们可以通过使用 Python 的开源库轻松实现!

在整个讲座中,您将找到对每种技术的详细解释以及关于它们的优势、局限性和基本假设的讨论,然后是在 Python 中实现它们的最佳编程实践。

在课程结束时,您将能够根据变量特征和您希望训练的模型来决定您需要哪种特征工程技术。而且,您还将能够很好地测试各种转换方法,并让您的模型决定哪些方法最有效。

提升您在数据科学领域的职业生涯

您已经迈出了数据科学的第一步。您了解最常用的预测模型。您甚至已经训练了一些线性回归或分类模型。在这个阶段,您可能会开始发现一些挑战:您的数据很脏,很多值丢失,一些变量不是数字的,而其他变量则极度倾斜。您可能还想知道您的代码是否高效和高性能,或者是否有更好的编程方式。您在线搜索,但找不到有关特征工程的综合资源。也许只是博客?所以你可能会开始怀疑:科技公司是如何做事的?

在本课程中,您将找到这些问题的答案。在整个课程中,您将学习变量转换不同方面的多种技术,以及如何使用 Python以优雅、高效和专业的方式实现它们。您将利用 Python 开源生态系统的强大功能,包括 NumPy、Pandas、Scikit-learn 库和用于特征工程的特殊包:特征引擎和类别编码器。

到课程结束时,您将能够将所有特征工程步骤实施到一个优雅的管道中,这将使您能够以最高效率将预测模型投入生产。

利用开源的力量

我们将使用 Pandas 和 Numpy 执行所有特征工程方法,并将与 Scikit-learn、特征引擎和类别编码器的实现进行比较,突出每个库的优点和局限性。随着您在课程中的进步,您将能够选择您最喜欢的库来执行您的项目。

有一个专用的 Python 笔记本,其中包含用于实现每个特征工程方法的代码,您可以在项目中重复使用这些代码来加速机器学习模型的开发。

最全面的特征工程在线课程

没有一个地方可以去学习特征工程。它涉及数小时的网络搜索,以了解人们正在做什么以充分利用他们的数据。

这就是为什么本课程收集了世界范围内用于特征转换的大量技术,这些技术是从 Kaggle 和 KDD 的数据竞赛、科学文章以及讲师作为数据科学家的经验中学到的。因此,本课程提供了一个参考来源,您可以在其中学习新方法,还可以在需要时重新访问修改变量所需的技术和代码。

本课程由一位具有在金融和保险领域使用机器学习经验的首席数据科学家讲授,他也是一本书的作者和用于特征工程的Python 开源库的首席开发人员。还有更多:

  • 该课程不断更新以包含新的特征工程方法。
  • 笔记本会定期刷新,以确保所有方法都使用最新版本的 Python 库执行,因此您的代码永远不会中断。
  • 该课程结合了视频、演示文稿和 Jupyter 笔记本来解释这些方法并展示它们在 Python 中的实现。
  • 该课程的开发历时四年,并在特征工程领域不断进行研究,为您带来最新的技术、工具和趋势。

本课程适合谁:

  • 想要学习如何预处理数据集以构建机器学习模型的数据科学家。
  • 希望学习更多机器学习特征工程技术的数据科学家。
  • 希望提高特征工程编码技能和编程实践的数据科学家。
  • 软件工程师、数学家和学者将职业转向数据科学。
  • 有兴趣在数据竞赛中试验各种特征工程技术的数据科学家
  • 想要学习如何使用 Scikit-learn 和其他开源软件包进行特征工程的软件工程师。

机器学习和人工智能优化工程课程图片

发表回复

后才能评论

尊敬的用户,您好!由于部分培训机构和留学生的举报,近期导致网站大量链接暂时失效。对此给您带来的不便,我们深表歉意。任何链接失效的资源,欢迎您添加侧边栏二维码随时反馈,我们将在48小时内为您提供新的网盘链接。如果您对此不便感到不满,您也可在48小时内申请无理由退款。感谢您的理解与支持!

Windows播放器推荐:Potplayer Potplayer 是免费的 Windows 播放器,支持双字幕和自动翻译功能。以下是操作指南: 挂载字幕 加载中文字幕:右击选择 字幕 -> 字幕设置,取消“只匹配文件名字幕”选项。可调整字幕颜色、位置和大小。 双字幕设置:右击 字幕 -> 选择字幕 -> 次字幕输出,设置主字幕和次字幕。 自动翻译 若可访问 Google 翻译服务,选择 字幕 -> 实时字幕翻译,勾选 总是使用 和 Google Translate,即可实时翻译英文字幕。 Potplayer 让观看更智能,学习体验升级。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可联络站长解决。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源