llm-compressor——vllm配套工具，用于压缩大语言模型

云烟 • 18小时前 • 编程

欢迎大家来到IT世界,在知识的湖畔探索吧!

这里是Aideas，每日分享AI相关资讯。本文由Aideas Agent整理并推荐。项目地址：
/vllm-project/llm-compressor，程序语言：Python，收藏: 1,193，分支: 111，今日收藏: 7 stars today。

欢迎大家来到IT世界,在知识的湖畔探索吧!

llmcompressor 是一个易于使用的库，用于与 vllm 一起优化模型以进行部署，包括：

针对仅权重和激活量化的全面量化算法集
与 Hugging Face 模型和库的无缝集成
基于 safetensors 的文件格式，兼容 vllm
通过 accelerate 支持大模型

支持的格式

激活量化：W8A8 (int8 和 fp8)
混合精度：W4A16, W8A16
2:4 半结构化和非结构化稀疏性

支持的算法

简单 PTQ
GPTQ
SmoothQuant
SparseGPT

优化方案

PTQ

执行 PTQ 是为了将可量化权重（例如线性层）的精度降低到较低的位宽。支持的格式包括：

W4A16 系列

使用 GPTQ 将权重压缩为 4 位。需要校准数据集。
在低 QPS 状态下具有更多的权重压缩，可有效加速。
建议用于任何 GPU 类型。

W8A8-INT8 系列

使用通道量化通过 GPTQ 将权重压缩到 8 位，并使用动态每标记量化将激活压缩到 8 位。需要用于权重量化的校准数据集。激活量化是在 vLLM 上进行推理期间进行的。
对于在高 QPS 制度下加速或在 vLLM 上离线服务非常有用。
建议用于具有计算能力 <8.9（Ampere、Turing、Volta、Pascal 或更早版本）的 NVIDIA GPU。

W8A8-FP8 系列

使用通道量化将权重压缩到 8 位，并使用动态每标记量化将激活压缩到 8 位。不需要校准数据集。激活量化是在 vLLM 上进行推理期间进行的。
对于在高 QPS 制度下加速或在 vLLM 上离线服务非常有用。
建议用于计算能力为 >=9.0 的 NVIDIA GPU（Hopper 和 Blackwell）。

稀疏化

稀疏化通过将选定的权重值修剪为零，同时在参数子集中保留基本权重来降低模型复杂性。支持的格式包括：

FP8 权重的 2：4 稀疏性，FP8 输入激活

使用半结构化稀疏性（SparseGPT），其中，对于张量中的每四个连续权重，有两个设置为零。使用通道量化将权重压缩到 8 位，并使用动态每个标记量化将激活压缩到 8 位。
比 W8A8-fp8 更适合推理，其评估分数博客几乎没有下降。注：当剩余的非零权重不足以概括原始分布时，小型模型的准确率可能会下降。
建议用于计算能力 >=9.0（Hopper 和 Blackwell）。

安装

pip install llmcompressor

欢迎大家来到IT世界,在知识的湖畔探索吧!

开始使用

快速测试

使用 GPTQ 和 SmoothQuant 算法对 TinyLlama 进行 8 位权重和激活的量化。模型可以更换为本地或远程 HF 兼容的检查点，并且 recipe 可以更改以针对不同的量化算法或格式。

应用量化

通过选择算法并调用 oneshot API 来应用量化。

欢迎大家来到IT世界,在知识的湖畔探索吧!from llmcompressor.modifiers.smoothquant import SmoothQuantModifier from llmcompressor.modifiers.quantization import GPTQModifier from llmcompressor import oneshot # 选择量化算法。 # * 应用 SmoothQuant 使激活更容易量化 # * 使用 GPTQ (静态每通道) 将权重量化为 int8 # * 将激活量化为 int8 (动态每个 token) recipe = [ SmoothQuantModifier(smoothing_strength=0.8), GPTQModifier(scheme="W8A8", targets="Linear", ignore=["lm_head"]), ] # 使用内置的 open_platypus 数据集应用量化。 oneshot( model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", dataset="open_platypus", recipe=recipe, output_dir="TinyLlama-1.1B-Chat-v1.0-INT8", max_seq_length=2048, num_calibration_samples=512, )

使用 vLLM 进行推理

由 llmcompressor 创建的检查点可以在 vllm 中加载和运行：

安装：

pip install vllm

运行：

欢迎大家来到IT世界,在知识的湖畔探索吧!from vllm import LLM model = LLM("TinyLlama-1.1B-Chat-v1.0-INT8") output = model.generate("我的名字是")

使用 HF Accelerate 量化大模型

llmcompressor集成以支持量化大型模型（如 Llama 70B 和 405B），或量化 GPU 资源有限的任何模型。

概述

accelerate是 Hugging Face 生态系统中一个非常有用的库，支持使用大型模型，包括：

将参数卸载到 CPU
使用管道并行性跨多个 GPU 分片模型

device_map

from transformers import AutoModelForCausalLM MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct" # device_map="auto" triggers usage of accelerate # if > 1 GPU, the model will be sharded across the GPUs # if not enough GPU memory to fit the model, parameters are offloaded to the CPU model = AutoModelForCausalLM.from_pretrained( MODEL_ID, device_map="auto", torch_dtype="auto")

欢迎大家来到IT世界,在知识的湖畔探索吧!from llmcompressor.transformers.compression.helpers import calculate_offload_device_map from transformers import AutoModelForCausalLM MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct" # Load model, reserving memory in the device map for sequential GPTQ (adjust num_gpus as needed) device_map = calculate_offload_device_map(MODEL_ID, reserve_for_hessians=True, num_gpus=1) model = AutoModelForCausalLM.from_pretrained( MODEL_ID, device_map=device_map, torch_dtype="auto", )

实用建议

CPU 卸载和朴素的管道并行性会减慢通过模型的向前传递。因此，需要注意确保所使用的量化方法与卸载方案很好地匹配，因为需要许多前向传递的方法，尽管模型会减慢速度。没有更多 GPU 内存可用，可以考虑将加载模型的精度降低到较低宽度的 dtype。

例子

CPU 卸载：量化为与单个 GPU 一起使用
多 GPU：量化为使用 2 个 GPU 和使用 2 个GPU

安装

pip install llmcompressor

CPU 卸载：量化FP8PTQ

欢迎大家来到IT世界,在知识的湖畔探索吧!export CUDA_VISIBLE_DEVICES=0 python cpu_offloading_fp8.py

多 GPU：量化INT8GPTQ

multi_gpu_int8.py演示如何量化 2 个 A100 上 to 的权重和激活：Llama-70Bint8

export CUDA_VISIBLE_DEVICES=0,1 python multi_gpu_int8.py

使用 FP8 量化 Mixtral-8x7B-Instruct-v0.1 模型

快速入门

提供的示例脚本演示了应用量化算法的端到端过程：

欢迎大家来到IT世界,在知识的湖畔探索吧!python3 mixtral_moe_w8a8_fp8.py

创建量化 MoE 模型

此示例利用和创建一个 FP8 量化模型。该模型使用数据集进行校准和训练。

可以按照下面的详细步骤作，也可以简单地使用以下命令运行示例脚本：

python mixtral_moe_w8a8_fp8.py

步骤 1：选择模型、数据集和配方

在此步骤中，将选择用于量化的基线模型、用于校准的数据集和量化配方。

模型：可以从本地目录引用，也可以从 Hugging Face Hub 检索。
数据集：也可以来自本地目录或 Hugging Face Hub。
配方：这些是 YAML 文件或 Python 修饰符对象，用于描述在训练期间或训练后应如何优化模型。在此示例中，使用 scheme 设置为QuantizationModifierFP8 的对象。

欢迎大家来到IT世界,在知识的湖畔探索吧!from llmcompressor.modifiers.quantization import QuantizationModifier recipe = QuantizationModifier(scheme="FP8", targets="Linear", ignore=["lm_head", "re:.*block_sparse_moe.gate"])

第 2 步：使用 Oneshot 运行量化

该方法将所选配方应用于模型和数据集，而无需进行任何微调。模型将被稀疏化并保存到
oneshotMixtral-8x7B-Instruct-v0.1-FP8。

from llmcompressor import oneshot output_dir = "Mixtral-8x7B-Instruct-v0.1-FP8" oneshot( model=model, dataset=dataset, recipe=recipe, save_compressed=True, output_dir=output_dir, max_seq_length=2048, num_calibration_samples=512, )

自定义量化

使用config_groups ：

欢迎大家来到IT世界,在知识的湖畔探索吧!# Example of defining a custom quantization scheme from llmcompressor.modifiers.quantization.gptq import GPTQModifier config_groups = { "group_0": { "targets": ["Linear"], "input_activations": None, "output_activations": None, "weights": { "num_bits": 8, "type": "int", "symmetric": true, "strategy": "group", "group_size": 128, } } } recipe = GPTQModifier(config_groups=config_groups)

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/120505.html

云烟 2023年 4月 25日

你这文采，堪称现代李白

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主有大厦之将倾而面不改色，狂澜于既倒而稳如泰山只能。

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主好文采

评论于古天乐拍戏误伤眼球缝八针！而他第一时间却只想给粉丝道歉[通俗易懂]
样 2023年 4月 25日

干货干货

评论于 UG编程，钻孔攻丝，铣螺纹，干货知识[亲测有效]
云烟 2023年 4月 25日

人家是chatGPT 不是GBT

评论于程序开发中MySql、SQLServer、SQLite数据库的使用场景及性能评测

llm-compressor——vllm配套工具，用于压缩大语言模型

支持的格式

支持的算法

优化方案

PTQ

W4A16 系列

W8A8-INT8 系列

W8A8-FP8 系列

稀疏化

FP8 权重的 2：4 稀疏性，FP8 输入激活

安装

开始使用

快速测试

应用量化

使用 vLLM 进行推理

使用 HF Accelerate 量化大模型

概述

device_map

实用建议

例子

安装

CPU 卸载：量化FP8PTQ

多 GPU：量化INT8GPTQ

使用 FP8 量化 Mixtral-8x7B-Instruct-v0.1 模型

快速入门

创建量化 MoE 模型

步骤 1：选择模型、数据集和配方

第 2 步：使用 Oneshot 运行量化

自定义量化

发表回复

联系我们YX

mu99908888

llm-compressor——vllm配套工具，用于压缩大语言模型

支持的格式

支持的算法

优化方案

PTQ

W4A16 系列

W8A8-INT8 系列

W8A8-FP8 系列

稀疏化

FP8 权重的 2：4 稀疏性，FP8 输入激活

安装

开始使用

快速测试

应用量化

使用 vLLM 进行推理

使用 HF Accelerate 量化大模型

概述

device_map

实用建议

例子

安装

CPU 卸载：量化FP8PTQ

多 GPU：量化INT8GPTQ

使用 FP8 量化 Mixtral-8x7B-Instruct-v0.1 模型

快速入门

创建量化 MoE 模型

步骤 1：选择模型、数据集和配方

第 2 步：使用 Oneshot 运行量化

自定义量化

相关推荐

发表回复

联系我们YX

mu99908888