KV Cache

[TOC]

一个绝好的教程：https://www.youtube.com/watch?v=80bIUggRJf4

KV-cache优化技术总结：https://zhuanlan.zhihu.com/p/659770503

KV-cache本身就是model.generate baseline式的优化方法

截屏2023-08-21 16.23.18

截屏2023-08-21 16.23.51

截屏2023-08-21 16.22.48

一般情况下，kv-cache常驻显存

截屏2023-08-21 16.26.29

截屏20213-08-21 16.28.08

我计算了一下，在256 token的时候需要0.125G

KV Cache 关键的优化技术