修改模型路径。编辑 cli_demo.py 代码,修改 5、6 行的模型文件夹路径,将原始的 “THUDM/ChatGLM-6B” 替换为 “model” 即可。
6G 显存可以 4 bit 量化
model = AutoModel.from_pretrained(“model”, trust_remote_code=True).half().quantize(4).cuda()
10G 显存可以 8 bit 量化
model = AutoModel.from_pretrained(“model”, trust_remote_code=True).half().quantize(8).cuda()