对于lmdeploy,
lmdeploy serve api_server internlm/internlm2_5-7b-chat --quant-policy 8
代表的是在线的kv cache量化,会将上下文中产生的k和v量化为8位,计算时再反量化为16位,降低显存并加快推理速度。但是,不加参数的,
lmdeploy serve api_server internlm/internlm2_5-7b-chat
这个是不是也默认是kv cache的8位量化呢,因为不加参数使用默认的turbomind推理引擎时,人家有内置的kv cache8位量化呢。所以说对于kvcache8位量化是不是加和不加都一样呢?如果我们要用kv int4的话是需要加这个参数
--quant-policy 4
我这样理解对吗。