本文来自微信公众号:Founder Park(ID:Founder-Park),作者:Founder Park,原文标题:《每天都在改变世界!这绝对是 AI 史上最疯狂的一周》,题图:由 DreamStudio 生成
真是疯狂的一周。
GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,一颗颗 AI 大模型领域的重磅炸弹,扎堆在这周引爆。
(资料图片仅供参考)
GPT 开启了大模型的多模态应用,微软说让工具回归工具,Midjourney 解决了 AI 作画的手指问题,学术界与开源势力也不甘落后,中国互联网公司总算有了第一个大模型产品......
像创世纪一样,日新月异。
我们从没有像今天这样,好奇两个月后的世界会变得如何。
但我们首先要做的,是记住这不寻常的一周。
周一
暴风雨前的平静。
图片由 DreamStudio 生成
周二
低成本:斯坦福大学发布 Alpaca 7B
成本降到超低,性能匹敌 GPT-3.5
斯坦福大学推出了由 Meta 的 LLaMA 7B 微调而来的全新模型 Alpaca。仅用 52k 数据,性能约等于 GPT-3.5。关键是训练成本奇低,不到 600 美元,评估效果与 GPT-3.5 相当。
这意味着人们可以以更低的成本获得与 GPT-3.5 相当的性能。
低门槛:清华发布 ChatGLM-6B
消费级显卡就能部署,准确度接近 GPT-3 175B(davinci)
下面是 ChatGLM 的自我介绍:
由清华技术成果转化的公司智谱 AI 开源了 GLM 系列模型的新成员——中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。虽然依然会有和 ChatGPT 一样的事实错误、胡说八道的问题,但作为开源模型,ChatGLM-6B 可以在消费级显卡上部署使用。
周三
OpenAI:GPT-4 来了!
人类历史上最慌的一天
我们之前的文章里有更详细的信息: 《GPT-4 发布后的 20 个小时》。
一个可能不太恰当的类比,在拥有了多模态能力后,GPT-4 的发布可能就是大模型产业的 iPhone 4 时刻。
能够与人类正常对话,又能够看懂图片,输出和推理能力更强大,你应该担心的不是会不会被取代,而是如何更快学会使用它。
高素质:Anthropic 发布 Claude
在适当的时候,学会沉默
由前 OpenAI 研究副总裁 Dario Amodei 创立,谷歌投资的人工智能公司 Anthropic 宣布聊天机器人 Claude 开放公测。它具有 ChatGPT 的对话推理能力,同时又可以像 New Bing 一样调整 AI 的语气、个性和行为。
Anthropic 声称 Claude 不太容易产生有害的输出,因为它使用的是“以人为本”的语言建模方法,并根据语言的“深层结构”来构建模型。当被问及超出其知识领域的话题时,Claude 会推迟回答,降低产生虚假信息的风险。
Google:PaLM API 开放以及更多
AI 届汪峰:明明周三是我先来的
谷歌在 3 月 14 日晚间开放了其大语言模型 API——PaLM API。开发人员可以通过 API 访问谷歌的基础模型,并可以使用开箱即用的模板,在几分钟或几小时内启动生成式应用程序的创建。谷歌还推出了 MakerSuite 工具和 Generative AI App Builder 平台等人工智能企业工具。
PaLM API 的另一应用场景是 Gmail 和 Google Docs。用户只需键入您想要写的主题,即可立即生成草稿。MakerSuite 工具是简化开发人员在模型流程制作、迭代等领域的工具。MakerSuite 可以简化此工作流程,让用户将能够根据 prompt 进行迭代,使用合成数据扩充数据集,并轻松调整自定义模型。当你准备好编程时,MakerSuite 允许将 prompt 导出为你最喜欢的语言和框架(如 Python 和 Node.js)的代码。
然而,同一天更晚的时间,OpenAI 推出了多模态的 GPT-4,引起了科技圈轰动。
Google 一度是互联网公司在 AI 领域的半壁江山,但在这疯狂的一周里,它的发布却没有引起预期中的关注(推特互动数与 OpenAI 相差 20 倍)。
周四
训练速度:Pytorch 2.0 正式版发布
一行代码,训练模型 2 倍速!
PyTorch 是一个开源的 Python 机器学习库,用于构建和训练深度学习模型,比如各类 GPT 预训练语言模型,目前 TensorFlow、PyTorch 是国际两大主流深度学习框架,不少产品都在利用 PyTorch 培训大模型,比如 Salesforce。
2.0 相比 1.0 编译时间缩短 43%,简单来说,人类制造 AI 大模型的速度更快了。
图像生成:Midjourney V5 发布
AI 画不好手指?那是上上周的事。
这是最新发布的 Midjourney V5 生成的作品。大概用到的提示词是:一位在越南街头市场卖河粉的妇女的街头风格照片, 日落, 使用 fujifilm --ar 16:9 --v 5 拍摄。
注意看,一直被诟病的“AI 不会画手指”的问题,被解决了。
不是每个人都能成为摄影家,但未来每个人都能利用 AI 生成这样一张高质量的图片。
大规模应用:Microsoft 365 Copilot
48 岁的巨头靠 AI 再次走上巅峰!
微软王炸发布 Microsoft 365 Copilot,一夜之间在中外互联网上刷屏。
Copilot 应用了最新的 GPT-4 技术,能够帮助用户在 Word、Excel、PowerPoint、Outlook 和 Teams 等软件中进行写作、编辑、总结、创作、演示文稿等工作。
Copilot 在 Microsoft 365 界面中和其他应用程序并排出现在侧边栏,用户可以通过聊天对话,让 Copilot 帮助进行工作生产。微软计划将这些产品接入 GPT-4,以提高人工智能软件的开发速度和质量。微软正在与 20 位客户一起测试 Microsoft 365 Copilot,并将在未来几个月内扩展预览版。此外,微软正在开发在客户数据上训练这些模型,而不会泄露给其他客户或落入不良行为者手中。
“Word,你是个成熟的软件了,该学会自己码字了。”
微软:“在做... 不对,做好了。”
中文大模型:百度发布文心一言
没见过这么紧张的 Robin
在文心一言发布会上,百度董事长李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。此外,百度智能云即将面向企业客户开放文心一言 API 接口调用服务。
在股价和梗图之外,有个事实是:
文心一言是目前 AI 商业化产品浪潮中唯一的中国互联网大厂代表。
也许最着急的是 Robin。
周五
提示词:Stable Diffusion Reimagine
人人都是 prompt 工程师的时代,还没开始就结束了
在 Stability.AI 宣布收购图片工具 Clipdrop 开发商的短短一周后,它发布了新工具 Stable Diffusion Reimagine。SDR 允许用户无限制地生成单个图像的多种变体。用户只需将图像上传到算法中,就可以创建他们想要的尽可能多的变体,而不需要复杂的 prompt。这个工具基于 Stability.AI 创建的一种新算法。
最后,你当然会猜到,这篇文章大部分是使用 AI 工具生成的,可你又怎么会在意呢?
Is there anything else you would like to know?
本文来自微信公众号:Founder Park(ID:Founder-Park),作者:Founder Park
关键词: