教程演示🔗

课程描述

本课程是您进入令人兴奋的强化学习领域的完美切入点,在该领域,数字人工智能代理被构建为自动学习如何通过反复试验做出连续决策。具体来说,本课程侧重于多臂强盗问题以及各种算法策略的实际动手实施,以平衡探索和利用。每当您希望随着时间的推移从有限数量的选项中始终如一地做出最佳选择时,您正在处理多臂老虎机问题,本课程将向您介绍您需要了解的所有细节,以便能够构建现实的业务代理来处理这种情况。
本课程通过非常简洁的解释,教您如何自信地将看似可怕的数学公式毫不费力地翻译成 Python 代码。我们知道我们当中没有多少人在技术上精通数学,因此除非必要,否则本课程有意远离数学。即使当有必要谈论数学时,本课程采用的方法也是让任何具有基本代数技能的人都能理解,最重要的是轻松地将数学转化为代码,并在此过程中建立有用的直觉。
本课程教授的一些算法策略是 Epsilon Greedy、Softmax Exploration、Optimistic Initialization、Upper Confidence Bounds 和 Thompson Sampling。有了这些工具,您就可以轻松构建和部署能够在不确定情况下处理关键业务运营的 AI 代理。
为了弥合理论与应用之间的差距,我更新了这门课程,在其中展示了如何使用 EV3 Mindstorm 将 MAB 算法应用到机器人技术中。我将很快上传一个部分,展示如何应用本课程中教授的算法来优化广告。

课程描述

  • 了解并能够识别多臂老虎机问题。
  • 将实际业务问题建模为 MAB,并实施数字 AI 代理以使其自动化。
  • 了解 RL 在探索-开发困境方面的挑战。
  • 实际实现各种算法策略以平衡探索和开发。
  • Epsilon 贪心策略的 Python 实现。
  • Softmax 探索策略的 Python 实现。
  • 乐观初始化策略的 Python 实现。
  • 置信上限 (UCB) 策略的 Python 实现。
  • 了解 RL 在奖励函数设计和样本效率方面的挑战。
  • 通过增量抽样估计行动价值。

本课程适合谁

  • 任何具有基本 Python 技能并希望开始强化学习的人。
  • 希望将强化学习应用于实际业务问题的经验丰富的 AI 工程师、ML 工程师、数据科学家和软件工程师。
  • 愿意了解强化学习如何帮助自动化自适应决策制定过程的商业专业人士。

Python 实用多臂强盗算法规范

  • 出版商:udemy
  • 老师:爱德华派
  • 英语语言
  • 字幕:英语
  • 级别:所有级别
  • 课程数量:13
  • 时长:3小时45分钟

2022/2 课程内容

课程描述

  • 能够理解 Python 中的基本 OOP 程序。
  • 具有基本的 Numpy 和 Matplotlib 知识。
  • 基本的代数技能。如果您知道如何加、减、乘和除数字,那么您就可以开始了。

Python实用多臂强盗算法课程图片

发表回复

后才能评论

尊敬的用户,您好!由于部分培训机构和留学生的举报,近期导致网站大量链接暂时失效。对此给您带来的不便,我们深表歉意。任何链接失效的资源,欢迎您添加侧边栏二维码随时反馈,我们将在48小时内为您提供新的网盘链接。如果您对此不便感到不满,您也可在48小时内申请无理由退款。感谢您的理解与支持!

Windows播放器推荐:Potplayer Potplayer 是免费的 Windows 播放器,支持双字幕和自动翻译功能。以下是操作指南: 挂载字幕 加载中文字幕:右击选择 字幕 -> 字幕设置,取消“只匹配文件名字幕”选项。可调整字幕颜色、位置和大小。 双字幕设置:右击 字幕 -> 选择字幕 -> 次字幕输出,设置主字幕和次字幕。 自动翻译 若可访问 Google 翻译服务,选择 字幕 -> 实时字幕翻译,勾选 总是使用 和 Google Translate,即可实时翻译英文字幕。 Potplayer 让观看更智能,学习体验升级。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可联络站长解决。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源