智谱新模型屠榜!国产GPU神速适配,全球第一不是吹的
- 时间:
- 浏览:109
- 来源:越西县融媒体中心
6月17日有消息显示, 智谱于今日宣告上线并且开源GLM - 5.2。在历经全球百万用户参与的盲测的前端开发评估系统Code Arena上, GLM - 5.2展现出取得全球可用模型第一的表现。摩尔线程于今日宣称在AI训推一体全功能GPU智算卡MTT S5000上, 达成了对智谱新一代开源旗舰模型GLM - 5.2的Day - 0极速适配。
据悉, 摩尔线程技术群体依据 SGLang-MUSA 推理引擎以及 TileLang-MUSA 算子编程语言, 达成了模型结构适配, 完成了关键算子优化, 开展了框架拉起与部署验证, 于 MTT S5000 上面达成了 GLM-5.2 的高效且高精度推理。摩尔线程还宣称, MTT S5000 针对硬件算力、软件栈以及开源框架实施了全链路适配并进行了深度优化。
支撑超长上下文
具 GLM - 5.2 的,有 Solid 1M 上下文以及长程任务能力的, 致使长 Prompt 编码, 还有上下文读入以及 KV Cache 生成, 成为推理链路里的关键环节。长输入请求, 在进入生成阶段以前, 要先完成大规模 Prefill 计算;这一阶段, 格外依赖并行矩阵计算, 以及 Attention 算子效率, 还有显存容量以及访存带宽。
MTT S5000, 依靠硬件级原生 FP8 加速, 单卡有着高达 1000 TFLOPS 的稠密算力, 搭载了 80GB 大容量的显存, 还有 1.6TB/s 的超高带宽, 它能够在长输入 Prefill 阶段, 集中释放出高吞吐的优势, 能为百万 token 级上下文处理, 提供充足的缓存空间, 以及稳定的数据吞吐。依赖MUSA C++、Triton-MUSA以及TileLang-MUSA等工具链, GLM-5.2相关算子结构能够迅速迁移, 且针对长序列场景不断优化, 助力减少长进上下文请求的首Token等待时间(TTFT), 提高AI Coding、RAG和长文档分析等场景的在线推理效率。
赋能前沿 Coding 与 Agent 能力
摩尔线程, 基于 GLM 家族多代模型的适配与优化经验, 针对 GLM - 5.2 重点强化的编程、智能体以及长程任务场景, 把模型结构适配、算子优化、框架拉起和部署验证能力, 快速迁移至 GLM - 5.2。借助原生算子定制, 依靠TileLang - MUSA编程优化及SGLang - MUSA推理框架协同, MTT S5,000在确保模型精度条件下, 可提升推理吞吐, 还能够降低响应延迟, 进而为客户供给面向AI Coding、Agent工作流以及长文档分析的高效推理服务。
IT之家附开源链接如下:
GitHub的链接呈上, 它是这样的, https://github.com/zai-org/GLM - 5。
抱脸之面网址为, https://huggingface.co/zai-org/GLM-5.2 , 此乃特定链接。
ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.2
猜你喜欢