一键安装此插件:
42plugin install ovachiever/droid-tings/speculative-decoding
通过推测解码、Medusa多头预测和前瞻解码技术加速LLM推理,适用于优化推理速度(1.5-3.6倍加速)、降低实时应用延迟或在有限计算资源下部署模型。涵盖草案模型、树状注意力、雅可比迭代、并行令牌生成及生产部署策略。
从属套包
ovachiever/kit/droid-tings