这绝对是AI史上最疯狂的一周-天天观速讯

来源: 虎嗅网　发布于：2023-03-20 11:06:13

本文来自微信公众号：Founder Park（ID：Founder-Park），作者：Founder Park，原文标题：《每天都在改变世界！这绝对是 AI 史上最疯狂的一周》，题图：由 DreamStudio 生成

真是疯狂的一周。

GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言，一颗颗 AI 大模型领域的重磅炸弹，扎堆在这周引爆。

(资料图片仅供参考)

GPT 开启了大模型的多模态应用，微软说让工具回归工具，Midjourney 解决了 AI 作画的手指问题，学术界与开源势力也不甘落后，中国互联网公司总算有了第一个大模型产品......

像创世纪一样，日新月异。

我们从没有像今天这样，好奇两个月后的世界会变得如何。

但我们首先要做的，是记住这不寻常的一周。

周一

暴风雨前的平静。

图片由 DreamStudio 生成

周二

低成本：斯坦福大学发布 Alpaca 7B

成本降到超低，性能匹敌 GPT-3.5

斯坦福大学推出了由 Meta 的 LLaMA 7B 微调而来的全新模型 Alpaca。仅用 52k 数据，性能约等于 GPT-3.5。关键是训练成本奇低，不到 600 美元，评估效果与 GPT-3.5 相当。

这意味着人们可以以更低的成本获得与 GPT-3.5 相当的性能。

低门槛：清华发布 ChatGLM-6B

消费级显卡就能部署，准确度接近 GPT-3 175B（davinci）

下面是 ChatGLM 的自我介绍：

由清华技术成果转化的公司智谱 AI 开源了 GLM 系列模型的新成员——中英双语对话模型 ChatGLM-6B，支持在单张消费级显卡上进行推理使用。虽然依然会有和 ChatGPT 一样的事实错误、胡说八道的问题，但作为开源模型，ChatGLM-6B 可以在消费级显卡上部署使用。

周三

OpenAI：GPT-4 来了！

人类历史上最慌的一天

我们之前的文章里有更详细的信息：《GPT-4 发布后的 20 个小时》。

一个可能不太恰当的类比，在拥有了多模态能力后，GPT-4 的发布可能就是大模型产业的 iPhone 4 时刻。

能够与人类正常对话，又能够看懂图片，输出和推理能力更强大，你应该担心的不是会不会被取代，而是如何更快学会使用它。

高素质：Anthropic 发布 Claude

在适当的时候，学会沉默

由前 OpenAI 研究副总裁 Dario Amodei 创立，谷歌投资的人工智能公司 Anthropic 宣布聊天机器人 Claude 开放公测。它具有 ChatGPT 的对话推理能力，同时又可以像 New Bing 一样调整 AI 的语气、个性和行为。

Anthropic 声称 Claude 不太容易产生有害的输出，因为它使用的是“以人为本”的语言建模方法，并根据语言的“深层结构”来构建模型。当被问及超出其知识领域的话题时，Claude 会推迟回答，降低产生虚假信息的风险。

Google：PaLM API 开放以及更多

AI 届汪峰：明明周三是我先来的

谷歌在 3 月 14 日晚间开放了其大语言模型 API——PaLM API。开发人员可以通过 API 访问谷歌的基础模型，并可以使用开箱即用的模板，在几分钟或几小时内启动生成式应用程序的创建。谷歌还推出了 MakerSuite 工具和 Generative AI App Builder 平台等人工智能企业工具。

PaLM API 的另一应用场景是 Gmail 和 Google Docs。用户只需键入您想要写的主题，即可立即生成草稿。MakerSuite 工具是简化开发人员在模型流程制作、迭代等领域的工具。MakerSuite 可以简化此工作流程，让用户将能够根据 prompt 进行迭代，使用合成数据扩充数据集，并轻松调整自定义模型。当你准备好编程时，MakerSuite 允许将 prompt 导出为你最喜欢的语言和框架（如 Python 和 Node.js）的代码。

然而，同一天更晚的时间，OpenAI 推出了多模态的 GPT-4，引起了科技圈轰动。

Google 一度是互联网公司在 AI 领域的半壁江山，但在这疯狂的一周里，它的发布却没有引起预期中的关注（推特互动数与 OpenAI 相差 20 倍）。

周四

训练速度：Pytorch 2.0 正式版发布

一行代码，训练模型 2 倍速！

PyTorch 是一个开源的 Python 机器学习库，用于构建和训练深度学习模型，比如各类 GPT 预训练语言模型，目前 TensorFlow、PyTorch 是国际两大主流深度学习框架，不少产品都在利用 PyTorch 培训大模型，比如 Salesforce。

2.0 相比 1.0 编译时间缩短 43%，简单来说，人类制造 AI 大模型的速度更快了。

图像生成：Midjourney V5 发布

AI 画不好手指？那是上上周的事。

这是最新发布的 Midjourney V5 生成的作品。大概用到的提示词是：一位在越南街头市场卖河粉的妇女的街头风格照片，日落，使用 fujifilm --ar 16:9 --v 5 拍摄。

注意看，一直被诟病的“AI 不会画手指”的问题，被解决了。

不是每个人都能成为摄影家，但未来每个人都能利用 AI 生成这样一张高质量的图片。

大规模应用：Microsoft 365 Copilot

48 岁的巨头靠 AI 再次走上巅峰！

微软王炸发布 Microsoft 365 Copilot，一夜之间在中外互联网上刷屏。

Copilot 应用了最新的 GPT-4 技术，能够帮助用户在 Word、Excel、PowerPoint、Outlook 和 Teams 等软件中进行写作、编辑、总结、创作、演示文稿等工作。

Copilot 在 Microsoft 365 界面中和其他应用程序并排出现在侧边栏，用户可以通过聊天对话，让 Copilot 帮助进行工作生产。微软计划将这些产品接入 GPT-4，以提高人工智能软件的开发速度和质量。微软正在与 20 位客户一起测试 Microsoft 365 Copilot，并将在未来几个月内扩展预览版。此外，微软正在开发在客户数据上训练这些模型，而不会泄露给其他客户或落入不良行为者手中。

“Word，你是个成熟的软件了，该学会自己码字了。”

微软：“在做... 不对，做好了。”

中文大模型：百度发布文心一言

没见过这么紧张的 Robin

在文心一言发布会上，百度董事长李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。此外，百度智能云即将面向企业客户开放文心一言 API 接口调用服务。

在股价和梗图之外，有个事实是：

文心一言是目前 AI 商业化产品浪潮中唯一的中国互联网大厂代表。

也许最着急的是 Robin。

周五

提示词：Stable Diffusion Reimagine

人人都是 prompt 工程师的时代，还没开始就结束了

在 Stability.AI 宣布收购图片工具 Clipdrop 开发商的短短一周后，它发布了新工具 Stable Diffusion Reimagine。SDR 允许用户无限制地生成单个图像的多种变体。用户只需将图像上传到算法中，就可以创建他们想要的尽可能多的变体，而不需要复杂的 prompt。这个工具基于 Stability.AI 创建的一种新算法。

最后，你当然会猜到，这篇文章大部分是使用 AI 工具生成的，可你又怎么会在意呢？

Is there anything else you would like to know?

本文来自微信公众号：Founder Park（ID：Founder-Park），作者：Founder Park

关键词：