一键安装此插件:
42plugin install ovachiever/droid-tings/gptq42plugin install ovachiever/droid-tings/gptq插件介绍
为大型语言模型提供训练后4位量化,在精度损失最小的情况下实现4倍内存压缩和3-4倍推理加速,支持在消费级GPU上部署70B/405B大模型,并与transformers和PEFT框架集成进行QLoRA微调。
一键安装此插件:
42plugin install ovachiever/droid-tings/gptq42plugin install ovachiever/droid-tings/gptq为大型语言模型提供训练后4位量化,在精度损失最小的情况下实现4倍内存压缩和3-4倍推理加速,支持在消费级GPU上部署70B/405B大模型,并与transformers和PEFT框架集成进行QLoRA微调。