媒体界
行业纵横 资讯速递 科技前沿 峰会论坛 企业快讯 商业快讯

DeepSeek联合北大发布新论文 梁文锋参与 推理加速框架DSpark提升大模型速度

2026-06-28来源:快讯编辑:瑞雪

当行业热议大模型智能水平时,DeepSeek选择将技术突破口对准推理效率这一关键痛点。这家人工智能企业联合北京大学研发的DSpark框架,通过创新性的半自回归架构,成功破解了大语言模型在高并发场景下的性能瓶颈。

在GitHub最新发布的论文中,研究团队揭示了现有技术路线的局限性。传统自回归模型因逐词生成机制导致GPU利用率低下,而并行草稿模型虽提升吞吐量却牺牲了生成质量。更关键的是,现有方案均未建立动态负载调节机制,无法适应实时对话等低延迟场景的复杂需求。

DSpark框架的创新之处在于构建了混合计算架构。其核心模块包含两种实现路径:马尔可夫头通过捕捉前一词元信息实现局部依赖,RNN头则通过循环状态累积完整上下文。这种设计既保留了并行计算的高效性,又通过轻量级串行模块确保语义连贯性。实验数据显示,两层Transformer结构的DSpark在生成长度指标上已超越五层DFlash模型。

技术突破迅速转化为实际应用。在DeepSeek-V4在线服务系统中,DSpark框架展现出显著优势:在维持相同吞吐量的前提下,用户端文本生成速度提升60%-85%。这种提升在智能客服、多轮对话等场景中尤为明显,有效缩短了用户等待时间。

开源社区同步迎来重要资源更新。研究团队不仅开放了DSpark模型权重,还发布了基于算法驱动的训练代码库DeepSpec。第三方测试显示,该框架在阿里Qwen3系列模型上表现突出:4B、8B、14B版本的可接受词元长度分别提升30.9%、26.7%、30%,相较并行草稿模型也有16%-18%的改进。

值得关注的是,DeepSeek创始人梁文锋直接参与了这个跨学科项目。这种产学研深度合作模式,为框架在工程实现与理论创新之间找到了平衡点。随着DSpark代码的全面开源,大模型推理效率的优化或将进入新的竞争阶段。

纳米“锁扣”新策略:三维光热蒸发材料助力高效太阳能海水淡化
近日,据媒体报道,中国科学院过程工程研究所与深圳大学联合团队近日提出一种基于高分子“锁扣”机制的新策略,成功将纳米颗粒编织成三维结构的光热蒸发材料,大幅提升了太阳能海水蒸发效率。 目前,团队已实现百克级量化生…

2026-06-28

国产超导磁体双突破 “人造太阳”聚变能研发迈向新高度
我们的目标是16个线圈组成环,线圈的运行电流是100千安,在中心会产生6.5特斯拉的磁场。 秦经刚:中心螺管磁体实际上是运行工况最复杂的磁体,它的性能直接决定着我们聚变装置能否点得着、稳得住这个关键的问题,实…

2026-06-28