国产GPU升级万卡集群

发布时间：2024-07-05 08:43 来源：千龙网阅读量：6917

日前，总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。

AI模型训练的主战场，万卡已成为标配。摩尔线程创始人兼CEO张建中说。随着计算量不断攀升，大模型训练亟需超级工厂，也就是一个大且通用的加速计算平台，从而缩短训练时间，实现模型能力的快速迭代。

所谓万卡集群，是指由一万张及以上的计算加速卡组成的高性能计算系统，用以训练基础大模型。据了解，构建万卡集群并非一万张GPU卡的简单堆叠，而是一项高度复杂的超级系统工程。可以把万卡集群想象为一个万人团队，团队需要有非常强的沟通机制，才能协同把一件事情做好。摩尔线程相关负责人说，希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台，并优先解决大模型训练的难题。

稳定性方面，夸娥万卡集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率在99%以上。

日前，总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。

稳定性方面，夸娥万卡集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率在99%以上。

声明：免责声明：此文内容为本网站转载企业宣传资讯，仅代表作者个人观点，与本网无关。仅供读者参考，并请自行核实相关内容。

国产GPU升级万卡集群

频道头条

月点击排行

热点推荐