OpenAI, Microsoft, and Meta Platforms have successively entered the stage, and the overseas AI terminal battle is focused on: glasses!

华尔街见闻
2023.12.15 08:46

报道称,谷歌仍在开发智能眼镜软件,OpenAI 与 Snap 强强联手,Meta 与 Ray-Bans 优势互补,苹果已在硬件上做好准备,亚马逊计划推出多模态 AI 新设备。

全球 AI 竞争必将在明年进入新一轮高潮,各大科技巨头围绕智能眼镜展开的争夺战也将成为焦点。

随着多模态 AI 强势崛起,Meta、谷歌、微软、OpenAI 等公司正竞相将更强大的 AI 技术应用于智能眼镜和其他可穿戴设备。

据 The Information 最新报道,谷歌虽然已经终止了增强现实(AR)眼镜项目,但仍在为智能眼镜开发软件。上周,谷歌史上最强 AI 模型 Gemini 展示了其多模态功能,向打造一个 “始终在线” 的 AI 助手的目标迈出第一步,但这距离真正实现可能仍需要数年时间。

该媒体援引一位知情人士报道,OpenAI 最近考虑将其物体识别软件 GPT-4 与 Vision 嵌入到 Snapchat 母公司 Snap 公司的 Spectacles 智能眼镜产品中,这可能会为其带来新的功能。

Meta 将一款多模态 AI 语音助手嵌入了他们正在与奢侈品墨镜公司 Ray-Ban 合作开发的智能眼镜,该助手可以描述佩戴者看到的东西,为衬衫搭配裤子提出建议,并可以将西班牙语文本翻译成英语。

另外,近几个月亚马逊也在讨论一种新型 AI 设备,据悉该设备也具备类似的视觉能力。

谷歌:仍在开发智能眼镜软件

据报道,谷歌虽然早在年中就取消了智能眼镜的开发,但仍在为其开发软件,谷歌计划将软件授权给硬件制造商,类似于为三星等手机制造商开发安卓移动操作系统的方式。

谷歌上周发布视频展示了 Gemini 的部分功能,比如自动识别用户表演的电影,对面前物品提出建议,以及学习新游戏的能力。

Gemini 家族目前有 Gemini Ultra,Gemini Pro 和 Gemini Nano 三个成员,将向不同的客户群开放,但谷歌并未在视频中公开其所谓的高级版 Gemini,视频中的用户交互也做了渲染。

尽管如此,该视频展示了谷歌打造一个 “始终在线” 的 AI 助手的愿景,它可以实时响应和理解用户正在做的事情和看到的东西。

知情人士向 The Information 透露,要实现这种 “环境计算” 仍需数年时间。作为第一步,谷歌正在重新设计 Pixel 手机的操作系统,嵌入小型的 Gemini 模型驱动 Pixie AI 助手,处理更加复杂和多模态的任务。据此前报道,Pixie 能够根据用户拍的照片,推荐附近的商店买到相关商品。

谷歌的核心搜索技术就是预测和提供用户需要的信息,因此开发这样的 AI 设备非常符合谷歌的定位。谷歌十年前试水的眼镜就是一个失败案例,由于外形尴尬、实用性有限,用户并不买单。

后来,谷歌对摄像头设计进行了调整,并推动安卓手机厂商将手机摄像头打造成 “第三只眼”,可以扫描环境并将图像发送到谷歌云端分析,为用户提供上下文信息,但这个想法最终缩水成图像搜索应用 Google Lens。

OpenAI:与 Snap 强强联手

The Information 援引一位知情人士报道,OpenAI 最近考虑将其物体识别软件 GPT-4 与 Vision 嵌入到 Snapchat 母公司 Snap 公司的 Spectacles 智能眼镜产品中,这可能会为其带来新的功能。

早在今年 3 月份,OpenAI 就展示了其 AI 软件根据手绘草图来构建网站的能力。或许是为了充分发挥大模型的强大功能,从那时起,OpenAI 首席执行官 Sam Altman 就多次表示,对构建一种新的基于 AI 的消费类设备感兴趣。

值得注意的是,OpenAI 本身没有设备团队,但可以与其他公司合作,比如 Snap 这样的设备制造商,或者 AI 芯片设计商。

另外,Altman 还正在投资一家名叫 “Humane” 的 AI 设备制造商,这家公司制造带摄像头的可穿戴设备 “AI brooch”,计划制造可以取代智能手机的 AI 设备。

微软:积极推进智能眼镜相关 AI 技术开发

微软正在积极推进可应用于智能眼镜和其他小型设备的 AI 技术的研发,这些技术或基于语音或图像识别,目的是赋能更多样化的智能硬件。

The Information 认为,这些工作可能基于微软现有的 HoloLens AR 头显来展开。

报道称,微软正在为 HoloLens 嵌入一种 AI 软件,用户可以通过语音与 OpenAI 技术驱动的聊天机器人讨论相机拍摄的物体。

苹果:已在硬件上做好准备

苹果在多模态 AI 技术上较竞争对手相对落后,但也在这一领域开展了一定工作。具体来说,

苹果已通过即将发售的 Vision Pro 头显,在硬件上做好应用多模态 AI 技术的准备。

苹果在 AI 算法方面落后于同行,直到今年才开始重点研究大型语言模型(LLM),此前相关研究仅停留在初步阶段。

The Information 报道称,目前没有迹象表明 Vision Pro 会在近期具备复杂的物体识别等多模态功能。

但是,苹果这些年致力于增强 Vision Pro 的计算机视觉能力,使其可以快速识别周遭环境,例如识别家具、判断环境是客厅、卧室还是厨房,苹果目前正在开发可以识别图像和视频的多模态模型。

Vision Pro 的一个主要障碍是体积较大、笨重,也不太适合户外佩戴。今年早些时候,苹果据传暂停了 AR 眼镜的研发以专注推出头显产品。目前不清楚眼镜项目何时重新启动,但未来可能实现多模态功能。

Meta:与 Ray-Bans 优势互补

12 月 12 日,Meta 和奢侈品墨镜公司 Ray-Bans 合作的新产品——Meta Ray-Bans 智能眼镜,开始推出多项 AI 功能:拍照、计算食物卡路里、识别植物、翻译等。从媒体和扎克伯格的试用来看,Meta Ray-Bans 智能眼镜 AI 功能的表现似乎还不错。

早在今年 9 月接受媒体采访时,扎克伯格就透露过,Meta 会在智能眼镜上推出多模态 AI 功能。所谓的多模态,即支持文本、图像、语音等多种形式的媒介输入的 AI。

据报道,Meta 未来还计划让眼镜能够检测人体的感官数据,进一步强化多模态能力。眼镜上搭载的高通 AI 芯片目前似乎表现良好,Meta 未来还计划进一步对使用流程进行优化。

目前,Meta 眼镜已经上架销售,售价为 300 美元,AI 功能处于早期测试阶段,仅向部分用户开放。但值得指出的是,Meta 也表示,会使用匿名数据来帮助改进眼镜的 AI 服务,可能会让许多关心隐私的用户感到不适。

亚马逊:计划推出多模态 AI 新设备

据直接了解该项目的人士向 The Information 透露,今年夏天,亚马逊 Alexa 团队计划推出一款能够运行多模态 AI 的新设备。

这位人士表示,该团队特别感兴趣的是,如何减少在设备上处理图像、视频和语音的 AI 计算和内存需求。

报道称,目前尚不清楚该项目是否获得资金支持,也不清楚该设备打算为客户解决什么问题,但它与亚马逊老产品 Echo 语音助理设备系列是分开的。

Alexa 团队多年来一直致力于新型设备的开发,其中包括一款名为 Echo Frames 的智能音频眼镜。然而,目前尚不清楚,亚马逊是否会在该眼镜的基础上开发具有视觉识别功能的设备,因为它不搭载屏幕显示器或摄像头。