AI 时代的 “铲子”,一文了解热议的 Mlops 是个啥?
中金指出,AI 大规模快速落地成为产业发展焦点,MLOps 是 AI 掘金时代的 “铲子”,从模型到生产应用,MLOps 助力 AI 模型落地生花。
4 月 4 日,AI 产业链细分 MLOps 继 3 日大幅拉升后,4 日开盘一度大涨,临近午盘有所回落。
另外,最近市场关于它的讨论也明显增多。
资料显示,MLOps 即机器学习运维,它是一种实践,旨在帮助团队更有效地开发、部署和维护机器学习模型。
打个比方的话,可把它想象成一个餐厅:数据科学家相当于大厨,他们将原材料(数据)转换为美味佳肴(机器学习模型);机器学习工程师则负责确保菜品(模型)在餐厅各个环节的质量和一致性,例如调整配方、监控烹饪过程等;IT 运维人员则负责餐厅的基础设施,如确保设备正常运行、提供必要的资源和环境等。
而MLOps 就是这个餐厅的管理团队,协调各个部门,确保整个流程高效运转,从而让顾客(用户)享受到高质量的产品(机器学习模型)。
据中国通信院《人工智能研发运营体系(MLOps)实践指南(2023 年)》文章表示,目前AI 生产过程管理问题凸显。
援引 Gartner 调查发现,只有 53% 的项目能够从 AI 原型转化为生产,AI 生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。具体来看,
第一,跨团队协作难度大。机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。
第二,过程和资产管理欠缺。模型生产过程无标准化管理,导致 AI 资产的价值无法有效发挥,原因在于:一是生产过程冗长难管理,AI 模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;二是 AI 资产无集中共享机制,组织内数据、特征、模型等碎片化 AI 资产无法共享使用,优秀实践经验难以沉淀。
第三,生产和交付周期长。机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。据 Algorithmia 报告显示,38%的企业花费超过 50%的时间在模型部署上。
而据中国信通院报告,MLOps 通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。MLOps 能有效缓解 AI 生产过程的各种管理问题,提升 AI 生产的转化效率。
人工智能产业发展联盟 AIIA 也表示,AI 工程化是 AI 大规模发展的必经之路,AI 要成为企业的生产力,就必须以工程化的技术来解决模型开发、训练、预测等全链路生命周期的问题,从而实现模型的规模化生产,而 MLOps 就是 AI 工程化的重要助推器。
MLOps 行业应用落地效果显著
报告称,国外方面,MLOps 落地广泛、效果显著,其主要应用于组织内部的服务运营、产品或服务开发、营销、风险预测及供应链管理等场景,应用行业涉及 IT、金融、电子商务、制造、化工和医疗行业等。
比如IT 行业:应用 MLOps 后,美国某 IT 公司将开发和部署新 AI 服务的时间缩短到原来的 1/12 到 1/6,运营成本降低 50%;德国某 IT 公司,通过自动化编排和实验跟踪,以相同的工作量运行 10 倍的实验数量;以色列某 IT 公司实验复现时间减少 50%;某美国出行科技公司三年内机器学习产品数量从零扩展到数百个。
国内方面,MLOps 处于规划和建设前期,落地探索成效初显。
IDC2022 年预测,到 2024 年 60% 的中国企业将通过 MLOps 来运作其机器学习工作流程。近 3 年来,国内各行业开始探索契合自身特点的 MLOps 落地解决方案,在数智化转型热潮中,IT、金融和电信等数字化程度较高的行业处于相对领先地位,其他行业进展稍缓。
IT 行业,凭借在数据方面拥有的先天优势,IT 行业最早开始构建 MLOps 并驱动其业务智能化水平的提升。如百度、华为、阿里、京东等,关注机器学习项目全生命周期的优化和改进,并在原有 AI 中台或云服务平台上逐步扩展 MLOps 过程管理功能,实践效果明显。百度通过应用 MLOps 使得开发周期缩短 54%,测试周期缩短 67%,所投入的人天数缩减 57%9。
金融行业,鉴于对风险的敏锐嗅觉,金融行业在使用 MLOps 驱动业务增长的同时,对模型风险的关注与日俱增。如工行、农行、浦发银行、中原银行、中信证券等,细分上千个应用场景,重点聚焦于模型生产、模型管理、模型安全、模型风险等方面,借助 MLOps 实现模型全流程管控。中原银行通过应用 MLOps 将模型上线周期从周缩短至天,将模型部署时间从小时级缩短至秒级。
电信行业,由于用户数量巨大,模型上线后的运营监控成为电信行业关注的重点之一。如联通、移动等,对模型运营监控的关注度较高,以保证模型的稳定性。某电信运营商应用 MLOps 建立模型运营监控体系,实现模型持续训练,节省人力 300 人天/年,成本降低 80%9。
此外,据浙商证券研报,华为云 AI 开发生产线 ModelArts 也支持全流程 MLOps 开发,实现行业数据参与 AI 持续迭代,大幅提 AI 应用的二次开发效率。
相关产业链
机器学习项目以需求、数据、代码、算法为输入,以模型、模型服务为输出,其生命周期主要包括定义问题、数据收集、数据处理、模型训练、模型评估、模型部署等过程。
MLOps 围绕持续集成、持续部署、持续监控和持续训练,构建和维护机器学习流水线,并通过流水线的衔接形成全生命周期闭环体系。
中金指出,MLOps 是 AI 掘金时代的 “铲子”,,从模型到生产应用,MLOps 助力 AI 模型落地生花。其同时表示,乘 AI 落地之风,MLOps 备受资本市场瞩目。
2020 年以来,AI 大规模快速落地成为产业发展焦点,拉动 MLOps 平台工具需求提升,根据 Marketsandmarkets 数据,全球 MLOps 市场处于快速发展阶段,预计将从 2022 年的 11 亿美元增长到 2027 年的 59 亿美元,CAGR 超过 40%。
此外,资本市场投融资热度上升,Weights&Biases、Tecton、OctoML 等初创公司均获得了数亿美元的融资。此外,大数据厂商龙头如 Databricks、星环科技亦将 MLOps 能力融合在其 Data+AI 的平台化产品中,其预计国内 MLOps 市场正处于高速增长的规模化放量前期,未来想象空间宽广。