Python 中实用的多臂强盗算法 ( Practical Multi-Armed Bandit Algorithms in Python )

教程演示🔗

课程描述

本课程是您进入令人兴奋的强化学习领域的完美切入点，在该领域，数字人工智能代理被构建为自动学习如何通过反复试验做出连续决策。具体来说，本课程侧重于多臂强盗问题以及各种算法策略的实际动手实施，以平衡探索和利用。每当您希望随着时间的推移从有限数量的选项中始终如一地做出最佳选择时，您正在处理多臂老虎机问题，本课程将向您介绍您需要了解的所有细节，以便能够构建现实的业务代理来处理这种情况。
本课程通过非常简洁的解释，教您如何自信地将看似可怕的数学公式毫不费力地翻译成 Python 代码。我们知道我们当中没有多少人在技术上精通数学，因此除非必要，否则本课程有意远离数学。即使当有必要谈论数学时，本课程采用的方法也是让任何具有基本代数技能的人都能理解，最重要的是轻松地将数学转化为代码，并在此过程中建立有用的直觉。
本课程教授的一些算法策略是 Epsilon Greedy、Softmax Exploration、Optimistic Initialization、Upper Confidence Bounds 和 Thompson Sampling。有了这些工具，您就可以轻松构建和部署能够在不确定情况下处理关键业务运营的 AI 代理。
为了弥合理论与应用之间的差距，我更新了这门课程，在其中展示了如何使用 EV3 Mindstorm 将 MAB 算法应用到机器人技术中。我将很快上传一个部分，展示如何应用本课程中教授的算法来优化广告。

课程描述

了解并能够识别多臂老虎机问题。
将实际业务问题建模为 MAB，并实施数字 AI 代理以使其自动化。
了解 RL 在探索-开发困境方面的挑战。
实际实现各种算法策略以平衡探索和开发。
Epsilon 贪心策略的 Python 实现。
Softmax 探索策略的 Python 实现。
乐观初始化策略的 Python 实现。
置信上限 (UCB) 策略的 Python 实现。
了解 RL 在奖励函数设计和样本效率方面的挑战。
通过增量抽样估计行动价值。

本课程适合谁

任何具有基本 Python 技能并希望开始强化学习的人。
希望将强化学习应用于实际业务问题的经验丰富的 AI 工程师、ML 工程师、数据科学家和软件工程师。
愿意了解强化学习如何帮助自动化自适应决策制定过程的商业专业人士。

Python 实用多臂强盗算法规范

出版商：udemy
老师：爱德华派
英语语言
字幕：英语
级别：所有级别
课程数量：13
时长：3小时45分钟

2022/2 课程内容

课程描述

能够理解 Python 中的基本 OOP 程序。
具有基本的 Numpy 和 Matplotlib 知识。
基本的代数技能。如果您知道如何加、减、乘和除数字，那么您就可以开始了。

Python实用多臂强盗算法课程图片

声明：本站所有文章，如无特殊说明或标注，均为本站发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python 中实用的多臂强盗算法 ( Practical Multi-Armed Bandit Algorithms in Python )

教程演示🔗

课程描述