首页>正文
又在节前,DeepSeek发布下一代架构过渡模型V3.2-Exp,API调用成本将降低50%以上
来源: 搜狐科技 发布于:2025-09-30 09:55:55

出品|搜狐科技


(相关资料图)

作者|郑松毅

一改“憋大招”风格,DeepSeek又又又更新了!

刚刚,作为迈向下一代架构的过渡,DeepSeek-V3.2-Exp实验版本模型正式更新发布,相关文件链接已由官方上传至开源社区Hugging Face。

目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时 API 大幅度降价。

网友锐评,“节假日前发版本,DS(DeepSeek)企业文化。”

DeepSeek介绍,“V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,简称DSA)——旨在针对长文本的训练和推理效率进行探索性的优化和验证。

“该实验版本的发布证明了我们在如何提升Transformer架构效率上的持续研究,特别是提高处理扩展文本序列时的计算效率。”

DeepSeek介绍,本次DSA首次实现了细粒度稀疏注意力机制(fine-grained sparse attention),在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。

为了严格评估引入稀疏注意力机制的影响,DeepSeek特意将V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐。从测试结果来看,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。

得益于新模型服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效。

DeepSeek表示,“在新的价格政策下,开发者调用 DeepSeek API 的成本将降低 50% 以上。”

DeepSeek自2023年成立起,就将自己定位为通用人工智能(AGI)和大模型研发的“技术引擎”。

对于DeepSeek-V3.2的发布,有开发者表示“DeepSeek终于加快了节奏,这是要走阿里Qwen的路线?”但也有部分开发者失望提到,“等了半天还是V3系列模型,DeepSeek-V4/R2到底何时现身?”

关于DeepSeek-V4,在X平台有一则爆料信息。网传,V4将在十月发布,并具备极强性能。

该信息提到,DeepSeek-V4将拥有1M Tokens的上下文窗口,可以一次性处理整个代码库或小说。GRPO算法将进一步提升,模型数学及编码等能力增强,支持无缝切换多步思考模式。同时,新架构有望实现更快且更便宜的推理效率。

至于消息的真实性,只能说先狠狠期待一波了。

关键词: 下一代 成本 推理 架构 效率 DeepSeek -Exp 模型 官方 过渡 架构 阿里Qwen 模型 开发

猜你喜欢

  • 布局发起式基金:中邮基金权益投资布局的深层逻辑
  • 五矿资源(01208.HK)拟发行价值5亿美元于2030年到期的零息可换股债券
  • 手绘长卷|重温烽火岁月 感悟抗战精神_速讯
  • 9月29日当周国内豆粕价格周环比下跌超2%
  • 又在节前,DeepSeek发布下一代架构过渡模型V3.2-Exp,API调用成本将降低50%以上
  • 企业专享服务 KOTIN京天华盛办公电脑性价比之选
  • 大摩评“英伟达投资OpenAI”:争议再大,这也是实实在在的“重大利好”
  • 最新资讯:中国电建四川院与中创新航签订合作框架协议
  • 银行如何评估个人信用对贷款的影响?
  • 华泰证券:石化化工行业稳增长工作方案发布 行业景气修复可期
  • 建行烟台分行四级联动 走进企业宣导汇率避险策略
  • 【ETF动向】9月29日工银瑞信国证新能源车电池ETF基金涨4.86%,份额减少3000万份
  • 焦点快报!社保基金会:坚定看好国内股票的长期投资价值
  • 海象新材获14家机构调研:未来公司将致力于研发NonPVC地板产品,并以此作为突破点恢复美国市场,但NonPVC地板产品在终端客户的销售情况还需要时间检验(附调研问答)
  • 每日快报!9月9日资金流向一览表|华泰证券(601688)
  • 微动态丨水肥精准“喂”、无人机“送”下山、“钢铁翼”忙脱叶 花样“黑科技”让丰收更智慧
  • 美股三大指数集体收涨 大型科技股涨跌不一
  • 今日观点!通达海:拟以2564万元收购江苏诉服达40%股权
  • 节前A股行情分析与展望
  • 我站立的地方是中国——走进帕米尔高原“生命禁区”