随着通用大模型性能的迅猛提升和推理算力成本的急剧下降,垂直领域的大模型正迎来前所未有的发展机遇。其中,代码大模型尤为引人瞩目,不仅吸引了市场的广泛关注,还激发了资本的浓厚兴趣。
据Gartner在《2024年全球IT支出预测》中的分析,全球软件开发人力成本年均增长率约为7-9%,预计到2024年,全球软件相关支出(涵盖开发和运维)将达到1.2万亿美元,其中人力成本占比高达50%,即6000亿美元。在中国,互联网巨头们面临的软件开发人力成本压力更为显著,部分公司的薪酬及相关支出年增幅已接近15%。
然而,与高企的软件开发需求相比,全球软件工程师的缺口却在持续扩大。数据显示,未来十年这一缺口可能达到数千万,成为制约各行各业数字化转型的关键因素。在此背景下,代码大模型凭借其独特的优势,成为了少数具备明确商业化条件和付费意愿的垂直行业大模型之一。
以Cursor为例,该产品仅用21个月便实现了1亿美元的ARR(年度重复收入),成为历史上增长最快的SaaS产品之一,估值高达100亿美元。Gartner还预测,到2026年,AI将自动化全球30%的编码任务,这意味着代码大模型市场潜力巨大,是一个可见的千亿美元级市场。
海外市场上,GitHub Copilot、Cursor、Codeium等AI编程产品已经取得了显著的成功。而在国内,通用大模型厂商也纷纷涉足代码大模型领域,如阿里的通义灵码、腾讯的腾讯云AI代码助手、华为的Code Arts、字节跳动的豆包Mars Code以及百度的文心快码等。京东、讯飞、昆仑万维、DeepSeek、智谱等多家通用大模型厂商也在积极布局。
在这些众多玩家中,孵化于北大软件工程研究所的aiXcoder凭借其深厚的积淀和卓越的模型性能脱颖而出。依托北大软件工程研究所60余年的积累,aiXcoder团队从多篇顶会论文奠基,到发布全球首个十亿级和百亿级参数的国产代码大模型,再到在国内诸多大厂头部客户中实践落地,实现了从实验室理论到产业价值的闭环突破。
2024年4月,aiXcoder发布了aiXcoder-7B模型,并开源。该模型在多个评测集的评测结果中超越了同级别参数规模的众多开源模型。与Qwen2.5-Coder-7B、DeepSeekCoder-7B、CodeLlama-7B等模型相比,aiXcoder-7B在代码生成与补全效果上均达到了SOTA(当前最佳)水平。
今年年初,aiXcoder(北京硅心科技有限公司)完成了A++轮融资,由中关村发展集团旗下中关村资本和中关村协同创新基金共同参投。截至目前,该公司已获得4轮融资,吸引了伽利略资本、高瓴创投、彬复资本、清流资本、三七互娱等多家顶级风险投资机构的持续注资。
近日,aiXcoder的商业合伙人兼总裁刘德欣接受了钛媒体创投家的独家访谈。他深入探讨了当前代码大模型行业面临的技术瓶颈和未来趋势,并分享了aiXcoder在这一前沿领域的独到见解与实践路径。
刘德欣表示,通用大模型无法取代代码大模型的原因在于,通用大模型的构建和训练方式基于自然语言,而代码具有更强的结构性和上下文依赖性。通用大模型主要利用互联网上公开的数据进行训练,无法涵盖特殊行业或企业的私有数据。因此,通用大模型在支持通用领域的软件开发任务时尚可,但在处理企业内的软件开发需求时则力不从心。
关于aiXcoder-7B的独特技术优势,刘德欣指出,团队在ICSE 2025(国际软件工程大会)上发表的最新论文中提出了三大贡献。首先,采用结构化Span的形式构建模型,并创新性地提出了“结构化填充中间目标(SFIM)”的训练方法。其次,提供了跨文件上下文理解的系统性优化方案。最后,创新性地发布了FIM-eval评测集,基于真实开发场景的数据进行测评,显示aiXcoder-7B在代码生成与补全方面效果最好,且生成的代码更加简洁。
在谈到企业在私域大模型落地过程中关注的要素时,刘德欣总结了四大原则:掌握模型自治权、实现模型层的高解耦、建立可复用的数据框架以及始终关注业务。他建议企业不要绑定任何单一的大模型厂商,也不要依赖于某个特定的开源或闭源模型,而是要保持接口的标准化和底层算力的适配性,以便随时集成业界最SOTA的大模型。
面对大厂在代码大模型领域的激烈竞争,刘德欣表示,aiXcoder将凭借在软件工程领域十余年的工具和方法积累,形成技术和产品壁垒。同时,aiXcoder更注重深入了解客户的复杂及私域需求,提供定制化和个性化的解决方案。aiXcoder也在积极与大厂开展合作,共同解决企业私域落地问题。
对于代码大模型的终极形态和人类程序员的角色定位,刘德欣认为,终极形态将实现完全的智能化、自动化的软件开发过程。然而,无论是短期还是长期,人类程序员都具有不可替代性。他们拥有深厚的业务知识和丰富的实践经验,能够进行复杂的系统架构设计与业务流程优化,并具备创新思维和创造力。因此,在未来,人类程序员可能不再需要手动编写大量代码,但仍需将更多精力投入到需求分析、算法和系统架构设计以及对AI生成结果的审核和业务创新上。
最后,刘德欣透露,aiXcoder已完成产品升级,创新推出内置MCP功能的软件开发Agent。该产品正在内测中,将为企业和开发者带来更好的操作体验和开发价值。无论是私有化部署的安全可靠性、研发周期的大幅缩短、企业私有化工具的无缝集成还是成本的精细化控制,aiXcoder Agent都展现出了显著的优势。