华尔街见闻
2023.05.18 06:03
I'm PortAI, I can summarize articles.

人手一个 Midjourney!Stability AI 开源旗下生图模型,做图圈炸了

Stability AI 在用 AI 造福所有人的路上越走越远。

StabilityAI 又双叒叕放大招了!

就在昨天,StabilityAI 在官网上重磅宣布——旗下的文生图应用 DreamStudio 开源了!开源产品更名为 StableStudio。

据官网介绍,此次开源意味着 StabilityAI 的图片生成产品线迈入一个全新的篇章,也展现出了 StabilityAI 推广开源模型的决心。

AI 的尽头是开源

自从 Stable Diffusion 发布以来,DreamStudio 就是 StabilityAI 最主要的应用,用来展示最新的模型和功能。

最近,DreamStudio 来了一波升级,改用了 StabilityAI 最新的图像生成模型——SDXL。

原本该应用的功能就是一个平台,让广大用户能用上生成图片的 AI 模型。到目前为止,用户得生成了少说成百上千的图片。

而此次发布的重磅炸弹,是因为 StabilityAI 相信,最好的推广生图模型的方式,就是开源,发展社群,而非闭关锁国。

诚如 LeCun 所说,AI 发展的尽头是开源。

StabilityAI 表示,他们的目标是和更多开发者社区建立合作关系,打造一个完全由用户控制的生成性 AI 的界面。

虽说 DreamStudio 将继续负责 StableStudio 的运营,但 StabilityAI 的目标是把 StableStudio 打造成一个独立的项目。

而且,StabilityAI 的野心可不小,誓要把 StableStudio 搞的比任何一个独立公司都要牛。

追溯起 DreamStudio 的起源,它最初是 Disco Diffusion 下的一个动画工作室。随着去年夏天 Stable Diffusion 的发布,Disco Diffusion 的重点也从动画转到了图像生成。

StabilityAI 的目标就是为生成性 AI 创造一个强大的多模式体验,该公司一直在为这个目标而努力。

因此,StabilityAI 在最新的 StableStudio 项目中公布了即将推出的聊天界面——

人手一个 Midjourney?

在今年 3 月,DreamStudio 也是发布了最新的一次更新。

新的稳定扩散微调(Stable unCLIP 2.1, Hugging Face),分辨率为 768x768,基于 SD2.1-768。

这个模型允许图像变化,以及混合操作。

由于其模块化,可以与其他模型,如 KARLO,进行结合。这里面有两个变体:Stable unCLIP-L 和 Stable unCLIP-H,它们分别以 CLIP ViT-L 和 ViT-H 图像嵌入为条件。

再来看看几组 StableStudio 生成的图片。

开源——StabilityAI 的优良传统

而开源,一向是 Stable 家族的传统。

就在上个月,Stability AI 宣布推出他们的第一个大语言模型——StableLM。

划重点:它也是开源的,在 GitHub 上已经可用。模型从 3B 和 7B 参数开始,随后会有 15B 到 65B 的版本。

并且, Stability AI 还发布了用于研究的 RLHF 微调模型。

项目地址:https://github.com/Stability-AI/StableLM/

Stability AI 官方声称:Alpha 版本的 StableLM 有 30 亿和 70 亿个参数,之后还有 150 亿到 650 亿参数的后续版本。

StabilityAI 还豪横地表示,开发者随便用。只要遵守相关条款,不管是检查、应用还是改编基础模型,想怎么来怎么来。

StableLM 功能强大,不光可以生成文本和代码,还能给下游应用提供技术基础。它是一个很好的范例,展示了小型、高效的模型通过适当训练就可以有足够高的性能。

早年间,Stability AI 和非营利性研究中心 Eleuther AI 一起开发过早期的语言模型,可以说,Stability AI 积淀很深。

像什么 GPT-J、GPT-NeoX 和 Pythia,这都是两家公司合作训练的产物,在 The Pile 开源数据集上训练完成。而后续的更多开源模型,比如 Cerebras-GPT 和 Dolly-2 都是上面三兄弟的后续产品。

说回 StableLM,它是在建立在 The Pile 基础上的新数据集上训练的,该数据集包含 1.5 万亿个 token,大约是 The Pile 的 3 倍。模型的上下文长度为 4096 个 token。在即将发布的技术报告中,Stability AI 会公布模型的规模和训练设置。

作为概念验证,团队用斯坦福大学的 Alpaca 对模型进行了微调,并使用了最近的五个对话代理的数据集的组合:斯坦福大学的 Alpaca、Nomic-AI 的 gpt4all、RyokoAI 的 ShareGPT52K 数据集、Databricks labs 的 Dolly 和 Anthropic 的 HH。这些模型将作为 StableLM-Tuned-Alpha 发布。

当然,这些微调过的模型仅仅用于研究,属于非商业性质。后续,Stability AI 还将会公布新数据集的更多细节。

其中,新数据集十分丰富,这也是为什么 StableLM 的性能很棒。虽说参数规模目前来看还是有点小(和 GPT-3 1750 亿个参数相比是这样的)。

Stability AI 表示,语言模型是数字时代的核心,我们希望每个人都能在语言模型中有发言权。而 StableLM 的透明性。可访问性、支持性等特点也是践行了这个观念。

Stability AI 表示,目前这些模型已经在 GitHub 公布,未来还会有完整的技术报告问世。Stability AI 期待和广泛的开发者和研究人员进行合作。同时,他们还表示将启动众包 RLHF 计划,开放助手合作,为 AI 助手创建一个开源的数据集。

随着 StableLM 的推出,可以说 Stability AI 在用 AI 造福所有人的路上越走越远了。

毕竟,开源一向是他们的优良传统。

在 2022 年,Stability AI 提供了多种方式让大家使用 Stable Diffusion,包括公开 demo、软件测试版和模型的完整下载,开发人员可以随意使用模型,进行各种集成。

作为一个革命性的图像模型,Stable Diffusion 代表着一个透明、开放和可扩展的专有 AI 替代方案。显然,Stable Diffusion 让大家看到了开源的各种好处,当然也会有一些无法避免的坏处,但这无疑是一个有意义的历史节点。

参考资料:

https://stability.ai/blog/stablestudio-open-source-community-driven-future-dreamstudio-release

本文来源:新智元,原文标题:《人手一个 Midjourney!Stability AI 开源旗下生图模型,做图圈炸了》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。