您当前的位置：首页 > 最新要闻正文

伊朗威胁切断美国及其盟友石油供应

科大讯飞星火 X2-Flash 模型发布：基于华为昇腾 910B 集群训练，最大 256K 上下文_蜘蛛资讯网

吉大一男生被曝翻浴池女生澡筐

ash 率先在国产算力上实现了 DSA（稀疏注意力）与 MTP（多 token 预测）结合的长文本高效训练，上下文拓展至 256K，通过亲和国产芯片的算子和分布式训练策略深度优化实现训练效率相比同规模 A800 集群从 20% 提升到 90%，解决了智能体长上下文在国产芯片训练慢的难题。在智能体强化学习训练场景，星火 X2-Flash 通过上述的算法创新 + 工程创新，大幅提升了采样推理效率，相对

当前文章：http://jph3rs.hengmutao.cn/c1e/blb.html

发布时间：07:55:04