通过 AWS 机器学习专业认证所需的技能/知识
关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。
本文详细介绍了成功通过 AWS ML 专业考试所需的技能或知识。
免责声明:博客中表达的所有观点和意见仅属于作者,不一定属于作者的雇主或任何其他团体或个人。本文不为任何课程或培训平台做宣传。本文的唯一目的是帮助 AWS 社区顺利通过这一高难度考试。此外,本文基于我的考试经验,可能与任何其他人的考试经验不同。
我在2022年 11月通过了AWS Certified Machine Learning — Specialty考试。我想通过这篇文章分享我的经验以及我为通过此认证考试所做的准备工作。我不想分享您可以从AWS认证页面获得的详细信息。相反,我会分享您通过考试需要了解的主题以及您在考试期间可能遇到的问题类型。
我为这次考试参加的课程和模拟考试
我参加了关于机器学习的 AWS 虚拟课堂培训,这与AWS Skill Builder(免费内容)提供的自定进度的在线免费数字培训非常相似。这两门课程作为起点都很好,但在我看来,它们都不足以通过考试。我参加了AWS Certified Machine Learning Specialty 2022— 实践!由 Stephane Maarek 和 Frank Kane 在 Udemy 上发布。我经历了大部分与数据科学密切相关的探索性数据分析和建模主题,因为 AWS 特定主题对我来说是众所周知的。我参加了几次模拟考试。这些解释消除了很多疑虑,尤其是在数据科学领域。请不要指望在考试中看到相同的问题,但这些练习考试会消除很多疑惑。以下是我参加的模拟考试列表。您可能不需要全部参加,但我强烈建议您在考试前至少参加一门考试并评估您的知识。 AWS 认证机器学习专业: Abhishek Singh 的3项实践考试Jon Bonso 的AWS 认证机器学习专业模拟考试Frank Kane 的AWS 认证机器学习专业完整模拟考试我已经准备了一份我经常参考的课程和模拟考试的个人笔记。我强烈建议创建一个简单的笔记,你可以用它来记录你不太了解的细节,以及你可以随时参考的东西,尤其是在考试前。
通过考试所需的技能/知识
领域1:数据工程
S3您需要具备基本的S3知识,因为 S3是 AWS 中 AI/ML 工作负载的主要数据源。了解 S3存储类以及生命周期规则如何在不同的 S3存储类之间移动对象以节省成本和 S3安全性(存储桶策略、不同的加密机制和 S3 VPC 端点)。期待有关 S3存储类和生命周期规则的问题。其他存储服务了解您可以使用 EFS、EBS 和 FSx for Lustre(最快但成本最高)作为模型训练的存储解决方案。了解在哪种情况下使用哪个选项。期待诸如“客户需要最快的解决方案来完成培训工作”之类的问题。Kinesis Family了解Kinesis Stream与Kinesis Firehose之间的区别。寻找诸如实时与近实时、数据转换、无服务器、自动扩展和数据保留等关键字。了解两种选择的不同生产者和消费者。对 Kinesis Video Stream 服务及其用例的高度理解。它如何与 AWS DeepLens、SageMaker 和 Recognition Video 集成。Kinesis Data Analytics 及其用法。知道您可以RANDOMCUTFOREST对流数据进行异常检测。
Glue, EMR & Athena了解何时使用 Glue 与 EMR。如果您在问题中看到“较少管理”或“无服务器”等关键字,请考虑使用 Glue。但是,如果您正在处理一个非常大的数据集,或者如果您想使用 Apache Spark 以外的其他大数据框架,或者如果您需要对计算层进行低级控制,请考虑使用 EMR。另外,了解 Glue Catalog 和 Crawler 的用法。知道 Glue 有一个“FindMatches ML”转换,可以识别数据集中的重复或匹配记录。了解 Athena 的工作原理及其解决的问题。如果您看到“临时分析”、“无服务器”、“对 S3中非结构化数据的 SQL 查询”等关键字,请考虑使用 Athena。深入了解 Step Function、AWS Batch、Data Pipeline 和 Data Sync 服务。您可能会在问题或答案中看到这些服务名称弹出。
领域2:探索性数据分析
清理和准备建模数据期待有关估算缺失数据的问题。对不同的数据插补技术有很好的理解(例如,Dropping vs. Mean replacement vs. ML vs. SMOTE)。了解删除停用词、标记化和“小写化”、HTML 标记删除、词干提取和词形还原如何帮助在训练前预处理数据。对过采样与欠采样有很好的理解。预计会有很多问题需要确定数据集是否不平衡。当你有一个不平衡的数据集时,你可以应用什么技术?了解为什么需要缩放、规范化、改组和标准化。当您想要将特征缩放到可比较的值时,请考虑归一化。否则,幅度较大的特征将具有比它们应有的更大的权重(年龄与薪水)。而标准化是一种缩放技术,可以减少特征中异常值的影响了解为什么标记数据集很重要,以及 SageMaker Ground Truth 和 Mechanical Turk 如何帮助实现这一目标。了解不同的数据分布函数(正态分布、泊松分布、二项分布、伯努利分布)。了解概率质量函数和概率密度函数之间的区别。进行特征工程期待有关装箱、离群值、1热编码和降低数据维度的问题。一定要了解 binning 与 Quantile binning,如何检测和最小化异常值的影响,何时使用1 热编码,以及为什么/何时/如何降低数据集的维度。知道对数变换和稳健标准化可以解决数据中的异常值,以及其他技术。分析和可视化机器学习数据不同的绘图技术(散点图、直方图、箱线图、弯头图)以及何时使用什么。知道散点图可以说明两个特征如何相关。而直方图提供了各个特征的分布。了解 Amazon Quicksight 提供数据可视化,有哪些不同的可视化类型和数据源。知道开箱即用的 Quicksight 提供异常检测、预测和自动叙述。
领域3:建模
将业务问题定义为机器学习问题您可能会看到一个问题,您需要确定 ML 是否是比传统编程更好的解决业务问题的解决方案。当您处理规模或无法编码规则(例如,电子邮件垃圾邮件或欺诈性信用卡交易场景)时,ML 可能是更好的选择对监督、无监督和强化 ML 算法有很好的理解。此外,给定一个问题,您应该能够确定这是分类(二进制与多类)还是回归类型的问题。还会有与预测、集群和推荐引擎相关的问题。为给定的机器学习问题选择合适的模型您需要了解所有开箱即用的 SageMaker 算法,并且应该知道在哪种情况下使用哪种算法。一些非常重要的是线性学习器、XGBoost、KNN、K-means、DeepAR、Seq2Seq、Object2Vec、Word2vec、BlazingText、对象检测、图像分类、语义分割、因子分解机、随机森林、LDA 和 PCA。你会被要求在多个问题中根据业务问题选择ML算法。了解逻辑回归和线性回归之间的区别。此外,要知道除了上述使用 Apache Spark 的内置 SageMaker 算法、使用 TensorFlow 或 Apache MXNet 的自定义代码、您自己的自定义算法和 Docker 映像中的代码或来自 AWS Marketplace 的算法之外,还有其他选项可以创建您自己的算法。了解何时使用哪个选项。考虑 ML 解决方案的时间和精力、成本和管理。训练机器学习模型了解如何将数据集拆分为训练集、验证集和测试集(通常为80-10-10)。此外,了解不同的交叉验证技术,例如 k 折交叉验证。了解什么是优化器、梯度下降、损失函数、局部最小值、收敛、批处理和概率。预计考试中会出现有关梯度下降、损失函数、局部最小值和模型收敛的问题。了解 SageMaker 上可用的不同计算选项。通常在深度学习算法训练期间首选 GPU,但非 GPU 实例适合推理,因为非 GPU 实例具有成本效益,而且推理通常要求不高。此外,要知道使用 Elastic Inference 可以加快吞吐量并减少从深度学习模型中获取实时推理的延迟,而成本仅为使用 GPU 实例进行推理的一小部分。了解批量大小和学习率如何影响模型训练。大批量导致更快的训练,但大批量有陷入局部最小值的风险。类似地,如果学习率太高,它会超过正确的解决方案,损失函数会振荡。执行超参数优化dropout、Early Stopping 和 L1/L2等正则化技术非常重要。这些用于防止过度拟合。了解 L1和 L2之间的区别。了解 RNN 与 CNN。了解 CNN 是图像和视频分析应用程序、对象检测、计算机视觉应用程序或一般多维数据的理想选择。而 RNN 用于预测值取决于先前看到的值、时间序列预测、语音识别和建模序列数据的应用。了解什么是长短期记忆(LSTM)。了解不同类型的激活函数及其用例。您需要知道 sigmoid 激活函数与 softmax 函数与 Tanh 和 RELU 之间的区别。期待关于激活函数的问题。评估机器学习模型您需要知道如何检测和处理偏差并防止模型过度拟合或欠拟合。对此会有很多疑问。通常,当模型在训练数据上表现不佳时,您的模型就会欠拟合。向模型添加更多功能或删除正则化会有所帮助。您可以增加模型的复杂性,训练模型更长时间(更多时期),并使用不同的网络架构。但是添加更多训练数据可能有帮助也可能没有帮助当您发现模型在训练数据上表现良好但在评估数据上表现不佳时,您的模型就会过度拟合。这是因为该模型正在记住它所看到的数据,并且无法概括为看不见的示例。正则化技术可以防止模型过度拟合。你需要知道二元和多类混淆矩阵。期待有关评估指标(AUC-ROC、准确度、精确度、召回率、RMSE、F1分数)的问题。请务必了解用例并记住准确性、精确度、召回率和 F1分数的计算。了解如何使用 SageMaker 评估模型和执行测试(使用变体权重进行 A/B 测试,蓝-绿)。了解如何使用不同的指标进行评估。
领域4:机器学习实施和操作
为性能、可用性、可扩展性、弹性和容错构建机器学习解决方案了解如何使用 CloudWatch 日志、指标和事件来监控您的 ML 工作负载。您可以使用 CloudWatch 设置扩展策略来定义目标指标、最小/最大容量和冷却时间。AWS CloudTrail 提供用户、角色或 AWS 服务在 Amazon SageMaker 中采取的操作的记录,但它不监控对 InvokeEndpoint 的调用。了解如何使用 SageMaker 进行多可用区或多区域部署。知道 SageMaker 会自动尝试跨可用性区域分发实例(如果指定了多个实例)。了解如何使用自定义 AMI。Sagemaker 虚拟机如何在负载均衡器后面的自动缩放组中运行。了解 SageMaker 实例合理化(Spot 与按需)的基础知识,以及如何根据您的工作负载选择最佳卷和 IOPS。了解管道输入模式如何帮助您的训练作业更快地开始、更快地完成,并在使用 S3中的大文件训练您的模型时使用更少的磁盘空间。针对给定问题推荐并实施适当的机器学习服务和功能对以下 AWS AI 服务有深入的了解。您应该对考试指南中提到的所有 AI 服务都有一些了解,但根据我的考试经验,我强烈推荐以下服务。Amazon Comprehend:执行 NLP 并提取关键短语、实体和情绪。您可以使用自己的数据进行训练。Amazon Translate:支持自定义术语的语言翻译服务。Amazon Transcribe:提供说话人识别、自动语言识别和自定义词汇的语音到文本服务。Amazon Polly:提供 Lexicons(单词和短语的自定义发音)并支持 SSML(语音合成标记语言)的文本转语音服务。Amazon Lex:围绕意图构建的自然语言聊天机器人引擎。Amazon Rekognition:可用于图像和视频分析。可以识别图像中的面孔和文字。您可以使用自己的标记数据来识别独特的项目。Amazon Personalize:推荐服务。了解 GetRecommendations 和 GetPersonalizedRanking API 之间的区别。AWS DeepLens:支持深度学习的摄像机,与 Kinesis Video Streams、Rekognition、SageMaker、Polly、Tensorflow、MXNet 和 Caffe 集成。了解将 AWS DeepLens 用作监控摄像头是不切实际的。寻找诸如“较少管理”、“业务需要快速解决方案”、“无服务器”等关键字。根据是应该在 SageMaker 中训练和部署模型还是应该选择易于使用的模型来做出判断-使用人工智能服务。这同样适用于您自己的模型与 SageMaker 的内置算法。了解如何使用 Spot 实例和成本较低的实例类型最大限度地降低基础设施成本。了解 GPU 实例非常昂贵。您也可以使用 Spot 实例进行模型训练并使用检查点到 S3,但它会增加训练时间。此外,对 AWS Batch 服务有一个高层次的了解,了解它如何安排计算实例来执行批处理作业。将基本的 AWS 安全实践应用于机器学习解决方案对 SageMaker 安全性有很好的了解。它如何与 IAM、CloudWatch、CloudTrail 和 VPC 集成。了解如何对静态数据和传输中的数据进行加密。了解如何使用 S3存储桶策略来限制访问。了解 S3的不同加密选项(SSE-S3 vs. SSE-KMS vs. SSE-C vs. CSE)。了解当您没有来自 SageMaker 实例的出口互联网访问权限时,如何使用 S3和其他 VPC 终端节点访问 S3和其他服务中的文件。部署和实施机器学习解决方案您需要知道如何部署模型并与之交互。训练模型并准备好进行生产部署后,您需要创建端点配置,然后创建端点来部署模型。该服务会自动启动一定数量的 ML 计算实例并将它们放置在不同的可用区中(如果您指定两个或多个实例)。知道 SageMaker 还支持产品变体的自动缩放。自动缩放与 CloudWatch 配合使用,它可以根据负载动态调整计算实例的数量。了解什么是推理管道。要知道这是一个由2-15个容器组成的线性序列,您可以在其中组合预处理、预测和后处理。它可用于实时和批量预测。在推理管道模型中,Amazon SageMaker 将调用处理为一系列 HTTP 请求。了解如何监控模型的性能以及可用于调试生产中模型问题的不同选项。