金磊 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
书接上回,一体机以几块 3000 元的显卡作为加速的主力,就能够跑通 671B 的 DeepSeek。
放在个把月前,你敢想象这样的场景么?
一体机厂商们正在埋头苦干,期望能交付更多样化的产品。他们选择英特尔锐炫™ 显卡 + 至强® W 处理器这套组合拳,首要原因在于其成本十分诱人。基本上可以说是砍掉了一个数量级,下线能够控制在 10 万元以内。
其次,这套组合的表现很出色。上面那个场景就是它目前所取得的具有代表性的战绩。
这两点加起来就是“真香”定律的复现。
但别光说不练,这种极具性价比的一体机实测的体感到底如何呢?
带着这个问题,我们直接上手亲自测试了一波。
例如我们先用QwQ-32B离线状态下问了个经典题目:
9.9和9.11哪个大?
从效果方面来看,若仅单人使用,一体机的速度达到了 32 tokens/s。
讲真,这个速度在体感上已经是非常OK了。
而且这还不是个偶然事件,在同样的情况下,我们再问一个问题:
一个外星人来到地球后等可能选择以下四件事中的一件完成:
1,自我毁灭;
2,分裂成两个外星人;
3,分裂成三个外星人;
4,什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立。
求地球上最终没有外星人的概率。
同样的,我们可以看到输出速度依旧是非常的快。
当同时使用的人数增加时,我们进行了初步计算,每秒 tokens 的速度大致情况如下:
如果是 671B DeepSeek R1 这种地狱难度的情况,那么结果会是怎样的呢?
即便只是 Q4 量化版本,以往用来承载它的一体机成本,每次都可能达到 200 万元。以往承载 Q4 量化版本的一体机成本,往往会达到 200 万元。以往承载着 Q4 量化版本的一体机,其成本动不动就达到 200 万元。
请听题:
一个汉字,其结构为左右结构,左边是“木”,右边是“乞”,此字为何?仅需回答此字。
这种大模型体量如此之大,然而这种 10 万元级别的一体机却依然能够达到 10 tokens/s 的速度。
虽然体感上会觉得稍慢一些,但够用却是真的。
而且,实话实说,它的输出速度很快,时延很低,性价比也很高,这些只是这种英特尔架构一体机优点的一部分。
在它的背后,还有易部署、易操作等特点。
那么为何基于英特尔的一体机可以做到如此物美价廉?
价低质优的一体机,是如何炼就的?
我们刚才提到,10 万级别的一体机能够具备如此实用的质感,关键在于英特尔的组合拳。英特尔的组合拳使得 10 万级别的一体机拥有了实用的质感。10 万级别的一体机之所以能有如此实用质感,关键就是英特尔的组合拳。
锐炫™ 显卡 + 至强® W 处理器。
首先我们来看下这张英特尔锐炫™ 显卡。
英特尔专门为 AI 和图形处理而打造了它,这是一款高性能显卡。它在游戏方面的表现很突出,同时在 AI 推理以及视频处理这些专业领域也有着很强的实力。
运行大模型推理时完全没有压力。
它支持 TensorFlow 这一主流 AI 框架,也支持 PyTorch 这一主流 AI 框架。搭配 OpenVINO™ 工具套件,能够进一步优化性能,从而使 AI 任务跑得更快,并且更省资源。
锐炫™ 显卡还有一个特点,就是特别适合边缘计算——
并且为边缘应用场景承诺了五年的产品供应和软件支持。
刚才展示的情况是,像 DeepSeek、Qwen 这些开源模型,锐炫™显卡可以轻松应对。它尤其支持多卡并联,能够搭配 2 卡、4 卡甚至 8 卡,性能会迅速提升。
它的一体机不仅可以当作 AI 或大模型一体机使用,在有需求的情况下,还能够用于执行视频分析、8K 视频编解码以及 3D 渲染等这些高负载任务,具备一机多用的特点,性价比非常高。
至强® W 处理器是适用于工作站和 AI 一体机的“性能怪兽”CPU,除了显卡之外,它也是一个关键点。
从算力方面来看,它的配置最高可达 60 核。同时,它搭配了 DDR5 - 4800 内存,并且具备 TB 级的内存扩展。凭借这些配置,无论是跑大模型,还是做数据处理,都能轻松应对,游刃有余。
它内置的 AMX 技术,这种技术属于高级矩阵扩展。即便没有独立显卡,它依然能够对中小规模参数的大语言模型进行推理加速。并且,它的性价比直接达到了最高的状态。
至强® W 处理器支持多显卡配置,拥有多达 112 条 PCIe Lane,PCIe 5.0 通道充足,所以它能与锐炫™ 显卡搭档。
英特尔通过统一的计算架构和优化工具链,在此基础之上,让锐炫™ 显卡和至强® W 处理器发挥出了 1+1>2 的效果。比如:
英特尔通过硬件协同以及软件优化,使得 CPU 和 GPU 不再是单独的计算单元,而是能够高效配合的“黄金搭档”。 英特尔凭借硬件协同与软件优化,让 CPU 和 GPU 不再孤立,而是成为高效配合的“黄金搭档”。 英特尔通过硬件协同以及软件优化这一方式,使 CPU 和 GPU 不再是孤立的计算单元,而是形成了高效配合的“黄金搭档”。
这不难理解为何基于英特尔解决方案的一体机能够做到价格低且质量优。 这不难理解基于英特尔解决方案的一体机为何能做到价低且质优。 不难理解基于英特尔解决方案的一体机为何能做到价低质优。 基于英特尔解决方案的一体机能做到价低质优,这不难理解。 基于英特尔解决方案的一体机能够做到价低质优,这是不难理解的。
实战:如何在英特尔架构一体机上玩转DeepSeek
看过 Demo 演示以及一体机介绍后,你或许会感到好奇,倘若现在就有拿到一台这样的一体机的机会,那么该如何使用它来让 DeepSeek 运行起来呢?
首先要配置系统环境,更新GPU驱动版本必不可少。
主要框架是英特尔IPEX-LLM版本的llama.cpp,
以 Linux 系统作为例子,有 IPEX - LLM llama.cpp 的 portable tgz 包。
在这个框架里,推荐把 GGUF 格式的模型拿来使用。在此,用 unsloth 的开源版本进行说明。
开启终端后,输入以下命令进入解压缩后的文件夹:
cd/PATH/TO/EXTRACTED/FOLDER
使用英特尔 GPU 加速时,在运行 llama.cpp 之前,需要设置以下这些环境变量:
exportSYCL_CACHE_PERSISTENT=1
接下来,如果要运行的是 671B 版本的 DeepSeek-R1,那么就需要请 FlashMoE 来提供帮助。
DeepSeek-R1 是基于 MoE 架构的。它的满血版激活参数大概只有 37 亿。但即便如此,仍然需要完整加载整个模型。这一点对于一体机而言,是最大的难点。
从而能在较低的硬件成本下获得更高的推理吞吐量与更优的性能表现。
在 llama.cpp 与 FlashMoE 组合的助力下,初步的性能验证显示,在单路至强® W 处理器并搭配 2 到 4 块英特尔锐炫™A770 显卡的配置情况下,本文所阐述的方案能够取得接近 10 Token/s 的性能表现,这种性能已经可以满足企业级生成式 AI 诸如离线语音助手、文档摘要等应用场景的需求。
这套软硬一体模式高度集成。它满足了长上下文推理需求,同时实现了能耗和成本的可控。这种模式为 AI 服务规模化落地提供了可靠且易用的基础设施。
它能够更好地满足近期用户在 DeepSeek 或其他开源大模型实践中的需求,这种需求是比较迫切的。它的部署方式很灵活,也更贴近业务环境。它的响应速度较快。并且它在数据安全和隐私保护方面具有先天的优势。
以上简要介绍了针对 671B 版 DeepSeek 的部署方法。然而实际上,蒸馏版因其具有精简且高效的特点,所以能够更贴合各行业的实际业务场景与需求。
蒸馏版的部署指南可在英特尔中文官网(intel.cn)搜索「锐炫一体机」获取,满血版的部署指南也可在英特尔中文官网(intel.cn)搜索「锐炫一体机」获取。
它在应对这些行业的常规任务时,能够提供足够的处理能力和精准度。同时,它还能以更加灵活的方式融入到行业的业务流程当中,并且这种方式易于部署及适配。
“低成本+高效率”的路子还在继续
DeepSeek 的影响力在不断扩大,大模型的发展迎来了新的趋势,这个趋势就是走向推理的普及化。
以往,算力大多被集中投于模型训练。然而在未来,算力资源的分配会有显著变化,更多算力将被用于推理环节而非训练。
图源:IDC&浪潮信息
从应用场景方面来看,超大规模的数据中心在大模型运算中仍起着关键作用。从市场选择角度而言,一体机凭借其独特优势,正逐渐成为众多企业所喜爱的选择。
在这个趋势当中,一体机的优势体现为“低成本+高效率”。具体来说:
一体机启动成本较低。相较于传统分散式设备组合搭建系统,它在硬件采购、软件授权以及初始配置等方面的资金投入较少。企业不必花费大量前期资金来构建完整的运作体系,能够以较低的成本开启业务或办公流程。
一体机便于维护和部署。它采用高度集成化设计,优化了硬件兼容性,从而减少了硬件不匹配导致的故障。在日常维护中,因其整体性较强,技术人员便于进行故障排查和维修,这提高了维护效率,降低了维护难度。
一体机能够常驻在用户的办公与业务环境的边缘,以加速操作。它在靠近数据的源头和使用场景的地方运行,这样就能减少数据的传输距离和时间,降低延迟,进而提升业务处理的速度和响应的效率。
一体机是运行模型的硬件基础,这是确定的。从英特尔最近的举动可以看出,下一步的重点在于对接和扩展更多贴近实际生活的 AI 应用。
联合了 Hugging Face、Anyscale、Zilliz 等 AI 行业合作伙伴推出的企业 AI 开放平台 (OPEA) ,这是最好的证明。
如何理解OPEA?
它首先提供了搭建大模型应用所需要的零件,这些零件包括提示引擎、数据处理、记忆系统以及安全护栏等,并且是一起打包提供的,从而解决了生成式 AI 技术的工具碎片化问题。
它是一款评估和优化应用。这款应用能够从性能、可信度、可扩展性和弹性等方面对 AI 应用进行“体检”。以电商推荐商品的 AI 应用为例,通过“体检”能够对该应用进行针对性的改进,让它变得更实用。
所以众多合作伙伴加入,共建这个项目也就不奇怪了。
随着众多合作伙伴的加入,OPEA 生态会持续发展且日益壮大,还会衍生出各种不同的发展路径。
中国开放智能计算产业联盟(COIA)如今已汇聚了差不多 60 家成员单位,其专注的是推动企业 AI 生态的协同发展。这个联盟即将推出“Powered By OPEA”的认证体系,目的是保证合作伙伴之间 OPEA 生态能够相互联通。
该体系是业界首个企业级 AI 应用认证标准,它会成为 OPEA 生态的核心保障机制,并且会为通过认证的产品授予跨平台互操作性标识。
“Powered By OPEA”认证会促使 AI 产业生态得以完善,会加快企业 AI 标准化的进程,并且最终会发展成为企业挑选生成式 AI 组件的重要信任依据。
“AI无处不在”的故事正持续上演。
最后,附上量子位完整实测基于英特尔解决方案一体机的视频:
视频地址: