Kimi 发布 Linear 架构技术报告,性能超越全注意力机制

Kimi_发布_Linear_架构技术报告,性能超越全注意力机制 图1
Kimi 发布 Linear 架构技术报告,性能超越全注意力机制

月之暗面公司发布 Kimi Linear 技术报告,推出新型架构在保持更快速度和更好性能的同时超越全注意力机制。该架构可作为全注意力机制的直接替代品,并开源了 KDA 内核。

Kimi Linear 在 100 万上下文长度下可减少高达 75% 的 KV 缓存使用量,解码吞吐量提升最多 6 倍。核心亮点包括硬件高效的线性注意力机制 Kimi Delta Attention,以及首个在各方面超越纯全注意力质量的混合线性架构。

附件内容
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容