XinWen无线 - XinWen.Mobi»XinWen无线 › 新闻 › 海量 ›

华为云Tokens服务全面接入384超节点

日产讴歌福特极氪林肯阿尔法保时捷奔腾长城东风哈弗 Jeep 捷途岚图理想兰博基尼名爵马自达玛莎拉蒂欧拉奇瑞 smart 沙龙坦克特斯拉蔚来沃尔沃小鹏雪佛兰高合奥迪丰田本田雷克萨斯英菲尼迪捷达捷豹路虎阿斯顿马丁罗密欧标致宾利长安法拉利红旗几何凯迪拉克领克劳斯莱斯路特斯 MINI 迈凯伦哪吒起亚荣威三菱斯巴鲁腾势魏牌五菱现代雪铁龙宝骏大众宝马比亚迪

返回列表发新帖

华为云Tokens服务全面接入384超节点

[XinWen.Mobi 原创复制链接分享]

xinwen.mobi 发表于 2025-8-31 14:10:29 | 显示全部楼层 |阅读模式

▶ 语音朗读

华为云Tokens服务全面接入CloudMatrix384超节点，标志着其在AI算力服务领域的重大突破。这一升级通过全栈技术创新，将单芯片吞吐量从年初的1920TPS提升至2400TPS，TPOT（每输出Token时间）降至50ms，性能指标超过业界水平。以下是具体技术解析与行业价值：一、全栈技术突破：从硬件到架构的系统性创新1. CloudMatrix384超节点的颠覆性架构该超节点由384张昇腾NPU通过高速总线互联，形成一个等效于单台超级计算机的算力集群。其核心突破包括： MoE亲和架构：专为混合专家（MoE）模型设计，将传统“一卡多专家”的低效模式升级为“一卡一专家”的分布式推理，单卡计算与通信效率大幅提升。双层网络设计：ScaleUp总线网络实现超节点内384卡全对等互联，卡间带宽达2.8T，时延低至纳秒级；ScaleOut网络支持跨超节点微秒级时延扩展，解决传统集群“数据堵车”问题。 EMS弹性内存存储：通过内存池化技术打破显存与算力绑定，首Token时延最高降幅达80%，显存不足时可独立扩容，吞吐量提升最高100%。2. xDeepServe推理框架的极致优化作为CloudMatrix384的原生服务，xDeepServe通过Transformerless分离架构将MoE大模型拆解为Attention、FFN、Expert三个独立微模块，分派至不同NPU并行处理。再通过微秒级XCCL通信库与FlowServe引擎重构为超高吞吐流水线，最终实现单卡吞吐从600tokens/s到2400tokens/s的4倍跃升。这种“拆积木-并行计算-重组”模式，使超节点内数万昇腾芯片协同如一台设备，彻底消除算力瓶颈。3. CANN昇腾硬件使能与通信优化 CANN作为硬件加速中间层，集成XCCL高性能通信库，充分释放CloudMatrix384的UB互联架构潜力，为模型分离提供带宽与时延保障。FlowServe引擎则将超节点切分为自治DP小组，每组自带Tokenizer与缓存，支持千卡并发无阻塞。二、场景化服务创新：MaaS模式重构算力供给1. 灵活服务规格匹配多元需求华为云Tokens服务基于MaaS（模型即服务）模式，提供在线版、进线版、离线版、尊享版等分层服务。例如：在线版：适用于实时交互场景，如智能客服、实时内容生成；尊享版：针对高并发大模型推理，提供专属超节点资源池，确保稳定性与低时延。这种按需分配模式使企业无需自建算力基础设施，成本降低30%以上。2. 主流大模型与Agent平台全面兼容目前服务已支持DeepSeek、Kimi、Qwen、Pangu等主流大模型，以及versatile、Dify、扣子等Agent开发平台。在文生图场景中，通过Int8量化与算子融合技术，出图速度达业界2倍，支持2K×2K分辨率；文生视频场景通过通算并行技术，速度较友商提升3.5倍。例如，360纳米AI多智能体蜂群依托Tokens服务，实现1000+步复杂任务的连续执行，重构智能协作范式。3. 行业应用落地与生态共建华为云联合100余家伙伴，将Tokens服务深度融入政务、金融、制造等场景：智慧办公：今日人才推出的数智员工可自动处理会议纪要、销售分析等任务，效率提升40%；政企公文处理：方寸无忧的“方寸智脑”通过华为云算力支持，实现公文写作从人机协导向自主决策的跨越；元宇宙场景：“奇点新辰元宇宙”依托Tokens服务，支持数字资产上链与跨链流转，首个IP“迈克尔

服务, 节点, 算力, 通过

		自动登录	找回密码
密码			立即注册

华为云Tokens服务全面接入384超节点

华为云Tokens服务全面接入384超节点

相关帖子