京东探索研究院 投稿
量子位 | 公众号 QbitAI
京东研究院对大型模型的最新研究成果,成功发表于Nature集团旗下的学术期刊。
该研究创新性地提出了一套系统和方法,旨在开放环境场景下对大型模型进行训练和更新,同时实现与小模型的协同部署。
该项目依托于模型精炼、数据管理、训练改进以及云端协作等四大创新举措,成功将大型模型的推理效能提高了30%,同时将训练费用减少了70%。
该项目名为《Omniforce:以人为核心、赋予强大模型能力、实现云端与边缘协同的自动化机器学习系统》,并在Nature集团旗下的期刊npj Artificial Intelligence上发表。
据悉,该成果是国内首次系统性地攻克了开放环境中大型模型开发效率难题,并且获得了国际权威期刊的认可。
提出四个创新方法,推理平均提效30%
企业将大模型应用付诸实践,面临着诸多卡点:
一方面进入大模型应用门槛高,另一方面模型训练与推理效率低。
京东所研发的大规模模型计算技术,有效助力企业进行模型开发与训练,并在生产环节中发挥重要作用。该技术使得原本庞大、沉重的AI模型得以精简为精干的小型模型,保留了核心功能的同时,显著提升了运行效率,实现了减负不损失智能的目标。
既可减少计算资源消耗,提高推理效率,亦能兼容多种平台,便于在更多平台上进行广泛部署。
论文中提出了四个创新方法:
特别要指出的是,该平台能够对京东大模型、Llama、DeepSeek等众多模型进行蒸馏与推理操作。
在模型蒸馏层面,效果较同量级模型有明显提升。
以京东的大规模语言模型为参照,经过优化后的模型Livebench在性能上实现了14分的显著进步。
众多实验数据同样证实了其功效与效能,平均而言,推理效率提升了30%,而训练成本则平均下降了70%。
根据企业自身业务,将通用模型转化为专业模型
京东积累的先进大模型开发计算技术,为JoyBuild大模型开发计算平台提供了坚实的技术支持,并且为众多行业用户提供了广泛的服务。
JoyBuild致力于为客户的大规模模型开发以及行业应用开发,提供量身定制的解决方案。
它能够助力各种模型的优化与开发,配备了20多种开源模型以及丰富的数据资源,同时提供超过100种的算法和工具集,使得企业能够依据自身的业务特点,快速将通用模型转变为专业模型,实现大模型的一站式应用。
目前,仅需短短一周,企业便能完成数据准备、模型训练至模型部署的整个流程;过去需由10余人组成的科学家团队负责的工作,现在仅需1至2名算法人员即可完成;借助平台提供的模型加速工具进行优化,推理成本可节省高达90%。
京东拥有多样的业务领域,这些领域不仅为平台上的大型基础模型提供了针对性的行业应用环境,而且还推动了基于这些模型的商业化进程的快速实施。
除了行业知识库之外,JoyBuild积累了京东在零售、物流、健康、金融等多个领域的专业知识,这些知识可以应用于供应链的优化、智能客服系统的开发、营销内容的创作等多个场景,从而推动模型的广泛应用,实现其普惠性。
京东提出的大规模模型解决方案并非是神秘的“黑箱”,它实际上提供了一条通用的途径,用以提升大模型训练的效率并拓展其应用范围,堪称真正的“传授捕鱼之道”。
在未来的发展中,京东计划大幅提高大型模型的开发与运算效能,确保中小型以及大型企业均能以较低的成本、较高的效率打造个性化的AI应用,从而有效推动人工智能技术的广泛应用和落地实施。