lmdeploy加quant_policy参数和不加的区别

对于lmdeploy,

lmdeploy serve api_server internlm/internlm2_5-7b-chat --quant-policy 8

代表的是在线的kv cache量化，会将上下文中产生的k和v量化为8位，计算时再反量化为16位，降低显存并加快推理速度。但是，不加参数的，

lmdeploy serve api_server internlm/internlm2_5-7b-chat

这个是不是也默认是kv cache的8位量化呢，因为不加参数使用默认的turbomind推理引擎时，人家有内置的kv cache8位量化呢。所以说对于kvcache8位量化是不是加和不加都一样呢？如果我们要用kv int4的话是需要加这个参数

--quant-policy 4

我这样理解对吗。

2025年05月07日 | 264人阅读

回答 | 共 5 个

按点赞量排序

聚客AI-挽风

默认值是不开启kvcache

2025年05月07日

苏喂苏喂高不可潘

但是turbomind不是内置了kvcache优化吗，默认采用turbomind引擎的话不开启？我看dp这样说，不知道对不对屏幕截图 2025-05-07 203635.png

2025年05月07日

聚客AI-挽风 | 2025年05月07日

运行后会有TurbomindEngineConfig包含的参数

聚客AI-挽风

你自己运行一下lmdeploy chat指令就知道了，默认参数是0

2025年05月07日

苏喂苏喂高不可潘 | 2025年05月07日

好的好的，谢谢老师

游客