随着技术和生态的不断演进,应用场景的不断探索,人工智能已然不再是空中楼阁。无论是日新月异的互联网应用,还是求新求变的企业转型,机器学习都得到了广泛的应用,逐步成为驱动业务的关键技术。作为Amazon Web Services家族里的王牌成员,Amazon SageMaker 一出道便饱受关注,所以今天话不多说,小编赶紧来好好给大家介绍一下,这位机器学习重磅能手!
PS:后续还有更多精彩!敬请期待~~
彩蛋
惊喜预告:AWS机器学习解决方案架构师 — 王世帅 将于2020年4月30日晚上7点于哔哩哔哩直播平台“AWS云计算”官方账户上进行《“机器学习”并不难,使用Amazon SageMaker 易上手》主题直播,感兴趣的童靴不容错过~
机器学习本身是一个高度协作的过程,将领域经验与技术技能相结合是成功的基石,并通常需要多次迭代和实验。相比预研项目或原型验证,一个真正可以应用到生产环境的机器学习项目需要全面考虑工作流程的方方面面,包括数据预处理、框架部署与配置、算法选择和优化、模型训练和超参数优化、数据和模型安全、模型对于业务的可解释性、模型 A/B 对比测试、模型部署后的持续监控和优化、不同硬件环境对模型编译的要求、基础资源的管理运维、总拥有成本优化等等。
为了解决这些问题,让数据科学家、算法工程师、业务开发者都能轻松驾驭机器学习,AWS 于 2017 年 11 月推出了 Amazon SageMaker 机器学习平台服务,并且在过去的两年多里不断丰富功能组件。在 Gartner 发布的 2020 年云上 AI 开发者服务魔力象限中,AWS 被评为领导者, Amazon SageMaker 是其中不可或缺的一部分。
2020 年 4 月30日,Amazon SageMaker 在由光环新网运营的 AWS 中国(北京)区域和由西云数据运营的 AWS 中国(宁夏)区域正式开放。
Amazon SageMaker 是一项完全托管的服务,可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型。Amazon SageMaker 完全消除了机器学习过程中各个步骤的繁重工作,让开发高质量模型变得更加轻松。
Amazon SageMaker Studio ——首个适用于机器学习的集成开发环境(IDE)
Amazon SageMaker Studio 是一个功能丰富的机器学习集成开发环境 (IDE) ,您可以在统一的可视化界面中操作 Notebook 、创建模型、管理模型试验、调试,以及检测模型偏差。
Amazon SageMaker Notebooks 加快构建与协作
很多用户使用单台服务器运行 Jupyter Notebook ,不仅需要管理底层资源,而且在共享给其他用户时,需要修改一系列系统配置以及网络权限。Amazon SageMaker Notebook 可一键启动 Jupyter Notebook ,AWS 负责底层计算资源的托管;同时还支持一键共享 Notebook,让机器学习团队轻松协作。
Amazon SageMaker Autopilot 实现模型自动构建与优化
在设计机器学习模型时,我们需要考虑可以用来解决机器学习问题的各种算法,找到有效的算法往往需要几个小时的训练和测试,甚至更长时间。
Amazon SageMaker Autopilot 可以自动检查原始数据、选择最佳算法参数集合、训练和调优多个模型、跟踪模型性能,以及根据性能对模型进行排名。如此一来,您可以大大缩短寻找最佳模型所需的时间。
Amazon SageMaker支持多种深度学习框架
支持的框架包括:TensorFlow、PyTorch、Apache MXNet、Chainer、Keras、Gluon、Horovod、Scikit-learn 和 Deep Graph Library。
除了默认支持的框架,其他任何框架可以通过自带容器(BYOC,Bring Your Own Container)的方式在Amazon SageMaker中运行,包括模型训练和部署。
Amazon SageMaker Experiments 组织、跟踪和评估训练运行情况
模型训练需要多次迭代和不断调优,包括尝试不同算法、超参数、调整选取的特征等。Amazon SageMaker Experiments 通过自动捕获输入参数、配置和结果将其存储为“实验”来帮助您管理迭代。您还可以使用 Amazon SageMaker Studio 的可视化界面来浏览进行中的实验,与先前的实验及结果进行直观的比较与评估。
Amazon SageMaker Debugger 分析、检测和提醒与机器学习相关的问题
目前大多数机器学习流程是不透明的,而且训练模型所花费的时间较长,这些都是优化过程里的障碍。Amazon SageMaker Debbuger 能在训练期间自动捕获实时指标(如混淆矩阵和学习梯度等),让训练流程更加透明,最终提高模型精度。Amazon SageMaker Debugger 还会对常见问题发出告警并提供修复建议。借助 Amazon SageMaker Debbuger ,您可以更好地理解和解释模型工作原理。
AWS 是运行 TensorFlow 的最佳平台
AWS 提供了针对 TensorFlow 的优化。在 256 个 GPU 的集群扩展效率测试中,AWS 优化的 Tensorflow 的扩展效率高达 90 %,而默认的开源版本只有 65 %,您可以通过 Amazon SageMaker 轻松开启高效的分布式训练,大大缩短训练时间。
降低训练成本
Amazon SageMaker 支持基于托管的 Spot 竞价实例进行训练,训练成本降低最多可达 90 %,并且,Amazon SageMaker 支持周期性自动保存 checkpoint 以避免 Spot 实例中断引起的重复训练。
一键式部署
Amazon SageMaker 支持一键部署模型,针对实时或批量数据生成预测。您可以跨多个可用区在自动扩展的实例上一键部署模型,在实现高冗余的同时无需做任何基础设施运维操作。Amazon SageMaker 自动管理计算实例和模型部署,并为 API 访问提供安全的 https 终端节点。您的应用程序只需要调用这个 API 接口就可以实现低延迟、高吞吐量的推理。
Amazon SageMaker Model Monitor 让模型保持精确
由于训练数据的限制,模型部署之后的一个常见问题是,当目标变量随着时间推移发生改变,模型会不再适用。这个问题称为概念漂移(concept drift)。例如,经济环境变化可能会推动新利率出台,从而影响一个购房模型的预测结果。Amazon SageMaker Model Monitor 能够检测已部署模型的概念漂移(concept drift),并提供详细的警报,帮助确定问题根源。同时,通过 Amazon SageMaker 训练的模型会自动发送关键指标,您可以在 Amazon SageMaker Studio 中收集和查看这些指标。这个功能也为一些训练数据有限的场景提供了一个自动化机制,方便通过线上数据不断调优模型,而不必因为没有收集到足够数据或缺少自动化流程而推迟模型部署。
与 Kubernetes 集成以进行编排和管理
许多机器学习团队的现有工作平台是基于运维团队搭建的 Kubernetes 平台的,而且有一些现有工作流编排和应用不易迁移。Amazon SageMaker 充分考虑到了这一点,并提供了 Kubernetes Operator 来与基于 Kubernetes 的工作流集成。也就是说, Amazon SageMaker 不仅是一个全面的机器学习平台,而且可以通过 Kubernetes Operator 与您现有的平台集成。
Amazon SageMaker Neo 一次训练,多处运行
Amazon SageMaker Neo 让机器学习模型训练一次即可在云上或者边缘计算节点中的不同硬件和系统环境中运行。Amazon SageMaker Neo 优化的模型运行速度最多可提高两倍,并且所消耗的资源不到典型机器学习模型的十分之一。Neo 使用了包括 Apache TVM 在内的两种编译器,并且已经开源(https://github.com/neo-ai/),让您可以更加灵活地针对不同设备和应用定制软件。
通过利用 AWS 广泛的机器学习服务,NFL 将其比赛日的数据分析提高到了一个新水平,球迷、广播员、教练和球队可以受益于更深入的数据分析。
NFL(美国国家职业橄榄球大联盟)是美国最大的体育运动联盟,在全球拥有超过 1.88 亿的球迷。每场精彩比赛的背后都有成千上万个您可能会错过的数据点,例如运动员的速度,在场地的位置和移动方式。NFL 开发了一个名为下一代统计数据(Next Gen Stats)的系统,借助 AWS 机器学习和人工智能技术,NFL 提供了现场比赛数据的可视化,并挖掘更深刻的见解。
“借助 AWS 上的机器学习能力,我们可以更好地了解球迷的参与度、比赛的呈现方式、调整比赛规则的潜在影响、比赛的方式以及球员的表现和安全。Next Gen Stats 使我们能够利用这些实时数据,以全新、独特方式来吸引球迷,向球迷传递信息。” NFL 高级副总裁兼首席信息官 Michelle McKenna 通过与 AWS 的专业服务团队合作,Next Gen Stats 团队使用 Amazon SageMaker 创建和部署了机器学习模型。这些模型使用传统统计数据、球员跟踪数据和球员资料的作为输入,Next Gen Stats 改变了橄榄球的分析、比赛、执教和体验方式。
为了获得实时见解,来自体育场的数据将流式传输到 AWS。一旦进入 AWS,数据将在一秒钟之内经历 100 多个流程,最终为体育播音员提供更多可谈论的独特数据点。Next Gen Stats 的最大收益之一就是改善了球迷体验。除了传球成功概率之外,NFL 还建立了一些新的统计模型,例如接球后预期码数、QB 风险指数和冲阵效率等。
借助 Amazon SageMaker、Amazon Rekognition 等 AWS 机器学习服务,大宇无限实现了视频审核和推荐的自动化,可以给用户提供稳定、可靠且高质量的视频服务。
深圳大宇无限科技有限公司(以下简称“大宇无限”)是一家专注于移动互联网应用的创业公司, 2016 年初成立,团队主要成员来自北京大学、香港科技大学、UCLA、Emory 等国内外知名高校,具有一流互联网公司从业背景。大宇无限每月为全球超过 1 亿的用户提供服务。
移动短视频服务是大宇无限的主要业务方向之一,移动短视频服务包含在线视频推荐服务,需要构建机器学习系统,从设计架构、建立训练模型、选择算法和框架到最终部署到生产系统中,整个流程极为复杂,需要大量的开发人员耗费很长的时间才有可能完成。借助 AWS 在机器学习领域的一系列云服务,大宇无限快速完成了整个系统的开发和部署,实现了快速起步、为用户提供高质量短视频服务的目标。
“在大宇无限的产品中实现视频内容的在线推荐对我们的开发团队来说是一个巨大的挑战,Amazon SageMaker 极大地简化了机器学习系统的构建、训练和部署流程,使我们仅用了 3 个月就完成了整个系统的建设并承受了实际用户访问的压力,实现了从 0 到 1 的突破。”大宇无限技术副总裁刘克东。
借助Amazon ECS、AWS Lambda、AWS IoT Core、Amazon SageMaker等在内的云服务,为自身产品与解决方案的研发提供了安全可靠、覆盖全球的技术支撑,也为企业带来了一系列显著收益。
天津华来科技有限公司(以下简称“华来科技”)是一家集智能家居、智慧安防电子产品的研发、生产和销售为一体的高新技术公司。自 2015 年成立以来,始终秉持“做价格厚道、感动人心的产品”的价值观,一直致力于为用户提供“简单、易用”的智能家居和智能安防产品及解决方案。
随着海外市场的快速扩张,用户数量持续增长、设备访问量剧增,华来科技急需在传统硬件设计和生产之外创造更多的业务增长点。在这样的需求下,华来科技希望构建起一个由“硬件”+ “APP”+“后端服务”所组成的智能安防与智能家居服务平台。该平台需要具备良好的扩展性,并通过智能服务,更好地满足各地域用户的不同需求。要实现这样的愿景,华来科技需要快速搭建大数据处理平台,借助大数据处理技术精准地了解用户需求,优化建设成本,并缩短产品上市时间,以应对市场的激烈竞争。
“借助 AWS IoT Core 服务平台,我们完成了从边缘到云端物联网设备管理的转变;研发人员通过 Amazon SageMaker 进行机器学习模型搭建及算法训练,在传统安防摄像监控的基础上成功实现AI的视频场景与人物分析;Amazon ECS 的应用也改变了传统的部署方式,在提升业务平台稳定性和弹性的同时为我们节约了近 30 %的运营成本。”天津华来科技有限公司 Cloud 业务部总监季宝平。
Amazon SageMaker 服务目前已在由光环新网运营的 AWS 中国(北京)区域和由西云数据运营的 AWS 中国(宁夏)区域上线,以下链接中的教程将指导您学习 Amazon SageMaker 的模型构建、训练和部署,利用这些资源帮助您快速地从概念转向生产。