
Track Hyper | Huawei and Apple Enter the Field of Edge AI with Large Models

智能终端技术创新的新希望。
端侧 AI 大模型新赛道最近又迎来两个重量级玩家——苹果和华为,这为智能终端(主要是手机)走出低迷状态提供了新的希望和动力。
Apple GPT 是苹果公司基于其自研的 Ajax 框架开发的 AI 工具,目前在苹果公司内部展开小范围内测;华为则通过在 8 月 4 日下午举行的 HDC 2023 开发者大会上发布的 HarmonyOS 4 的智能助手 “小艺”,展示了端侧 AI 大模型在应用层面的能力。
此前,Meta、OpenAI、高通、谷歌、腾讯和百度等,已经或即将推出支持端侧 AI 大模型的应用或技术框架,正在快速勾勒这个全新方向的技术和市场前景。
HarmonyOS 4:有何端侧 AI 大模型能力
8 月 4 日,华为正式发布 HarmonyOS 4。华为 HarmonyOS 是面向万物互联的全场景分布式操作系统,支持手机、平板、智能穿戴和智慧屏等多种终端设备运行。
在华为这个著名的 IoT 操作系统的第四版中,端侧 AI 大模型(即在手机侧运行大模型)的能力成为关键核心。
“今天我们已进入大模型时代,华为盘古大模型将助力鸿蒙生态。” 华为常务董事、终端 BG CEO、智能汽车解决方案 BU CEO 余承东说,“通过盘古的底层能力加持,华为将为用户带来智慧终端交互、高阶生产力效率、个性化服务的全新 AI 体验变革。”
基于 AI 大模型的文本生成是 HarmonyOS 4 的一部分。随着大模型的日益发展,小艺获得全新升级,增强了交互、生产力和个性化服务三个方面的能力。
文本生成和总结能力,这是各家推出大模型应用的标准能力,HarmonyOS 4 也不例外。通过小艺,可识别图片中的内容和文字,能朗读文字内容并接入更多服务。
高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 认为,大模型将迅速重塑人机交互方式。
HarmonyOS 4 的交互变化看上去并不显著。在语音交互基础上,扩展了文字、图片和文档等多种形式的输入。比如,用日常说话的方式自然地与 AI 交流,小艺可自动完成指定任务。这一点在 iPhone 通过 Siri 早已能达成。
但是,作为首个具备 AI 大模型能力的智能助手,小艺对自然语义的理解更深。
举个例子,iPhone 的 AI 助手 Siri 需要 C 端用户输入的语音指令语义清晰而精确,而 HarmonyOS 4 则能理解相对含义不太明显的语音指令,因而搭载 HarmonyOS 4 的智能手机,能更精准、更迅速地完成任务。
此外,由于小艺具有的大模型 AI 泛化能力和手机智能助手连接了多种服务和特殊场景,因此也能比之前更快地获取服务。
比如,若收到一张活动海报图片,C 端用户对小艺下达指令,AI 能自动识别图片上的地址,给出导航按钮或保存海报电话作为联系方式。
若浏览一篇数千字的英文新闻,小艺可直接速读文章、做翻译并完成摘要,也能回答与该篇新闻有关的问题。
HarmonyOS 4 还有生成能力。比如自动生成各类商业电子邮件内容或生成图像;也能用终端保存的个性化照片,小艺调用 AI 画图功能生成各种风格的图片。
随着 C 端用户和小艺的持续交流,小艺会持续提升 AI 能力。这些交互数据会保留在端侧,以保护用户隐私。
个性化是智能手机应用的特征。小艺具备的记忆能力会随着长时间使用,越来越懂 “主人”,给出的建议更贴心:比如出行,在出行前提供完备而丰富的出行信息,落地后又能提供本地信息,并根据用户习惯,实现个性化推荐。
据华为透露,小艺这些新的能力,将在 8 月下旬开启公开测试体验。
这不是华为首次尝试将 AI 大模型接入移动终端。今年 3 月,华为发布的 P60 手机,自带智慧搜图功能。这项功能基于多模态大模型技术,通过在手机端侧对模型做小型化处理,实现了手机侧的大模型运行。
苹果动作缓慢,高通热情高涨
瞄上端侧 AI 大模型能力的智能终端商不只有华为,还有苹果。
苹果正在秘密研发的 GPT 软件叫做 Apple GPT,基于苹果自研的 Ajax 框架开发。
但目前,Apple GPT 缺乏更多细节,外界难以知晓其技术或应用能力究竟有哪些亮点。对此,苹果明确表示,目前尚未决定 Apple GPT 未来的开发方向。
此前,在第二财季财报电话会议中,苹果 CEO 库克承认,Al 潜力巨大,但如何使用 AI 技术,仍需要深入思考。库克说,苹果已将 AI 技术整合进产品和服务,未来也将继续这一进程。
全球首个面向消费级市场、大规模落地、应用 NLP 技术的智能助手,iPhone Siri,今年已经 12 岁。与刚刚全新升级的华为小艺、小米小爱、百度小度一众 “晚辈” 相比,Siri 非但不智能,还显得有点 “智障”。
外界认为,苹果落地 GPT 能力的载体很可能是这个呈现 “暮年” 状态的 Siri,但这未能得到苹果的证实。
尽管如此,苹果入局端侧 AI 大模型的迹象非常多。比如,今年 1 月,苹果启动一项新计划,为 Apple Books 添加数字旁白功能,以从书面文本中自动生成高质量的 AI 旁白音频;在 iOS17 更新版,苹果用 Transformer 语言模型完善输入法的预测和拼写纠正功能。
还有,新款 AirPods Pro 通过机器学习(ML)实现自适应音频模式,可通过识别外部环境自动调节音量;iPadOS 17 用机器学习模型实现对 PDF 字段的识别;Vision Pro 使用机器学习技术 “编码器 - 解码器” 神经网络为用户构建数字化身。
苹果如何布局 AI 赛道,这是一个系统大问题,很难用数百字说明白。但 Siri 开发团队的技术工程师对改变 Siri 的 “蠢笨” 看起来缺乏真正的动力,背后折射了 “组织功能障碍和缺乏雄心” 的现实,很可能会影响苹果在端侧落地 AI 大模型的效率。
但苹果的低效,不能改变端侧 AI 大模型在智能终端的部署规模,这是无可存疑的事实。因为包括高通、Meta、OpenAI、谷歌、亚马逊、腾讯和百度,都在等都致力于实现 AI 大模型在移动终端的轻量化部署。
OpenAI 团队在 7 月第四周推出覆盖 iOS/安卓系统的移动端 ChatGPT 应用;Meta 将与高通合作,从 2024 年起,其开源大模型 Llama 2 将能在旗舰智能手机和 PC 上运行;高通表示正在将更多生成式 AI 用例向边缘侧迁移,目前,参数超过 10 亿的 AI 模型已经能够在手机上运行,且性能和精度达到与云端相似的水平。
谷歌、腾讯、百度等已将模型压缩技术紧密结合移动端模型部署框架/工具。
其中,高通对此热情高涨。高通首席执行官克里斯蒂亚诺·阿蒙在一份声明中强调,高通能在手机上而不是云服务器上运行 AI 模型,这为高通提供了实现 “拐点” 的机会,从而推动未来的增长。
“总之,我们处于独特的地位,可以帮助塑造和利用即将到来的设备上的 Gen AI 机会。” 阿蒙说。
智能手机整体市场下滑态势何时能停止,目前仍无法确定;但是,端侧 AI 大模型赛道迎来的这波众多 B 端参与者,是重塑这个日渐低迷的电子消费品类的应用和市场格局的新希望所在。
