Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 2|回復: 0

[Willy] 双重量化

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 6 天前 | 顯示全部樓層 |閱讀模式
QLoRA 论文 [4] 提出了双重量化解决方案。这涉及执行第二轮量化,这次量化权重初始量化后的缩放因子。32 位缩放因子被分组为 256 个块,并通过引入第二轮量化因子缩小到 8 位精度。

如下图所示,如果将每个 64 个参数块的一个缩放因子以 32 位存储,则每个参数将增加 0.5 位 (32/64)。相反,使用这种双重量化将每个块的缩放因子压缩为 8 位,则每个参数将减少到仅 0.127 位 (8/64 + 32/(256*64))。

将 32 位浮点数的张量量化为 8 位整数的示例,并添加 哥伦比亚电报数据 双重量化,然后将新引入的比例因子从 32 位浮点数量化为 8 位浮点数。
将 32 位浮点数的张量量化为 8 位整数的示例,并添加双重量化,然后将新引入的比例因子从 32 位浮点数量化为 8 位浮点数。
职业资格考试
另一种流行的量化技术是 GPTQ [5],它逐层进行量化。GPTQ 接收一个小的校准数据集。然后,它求解每个层的最佳量化权重矩阵,以最小化量化层和全精度层输出之间的平方误差。然后重新组合各个层。它们将量化精度降低到 3 位和 4 位。

GPTQ 也已通过 AutoGPTQ 库集成到Hugging Face中。

量子阱
基于参数中的异常值会对压缩模型性能产生很大负面影响的观察,稀疏量化表示 (SpQR) [2] 建议对异常值使用更高的精度,同时将其余参数量化为 3 位。

事实证明,这种可变比特率技术在每个参数的有效比特率<4.75比特时几乎无损。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2025-3-12 18:02 , Processed in 0.033077 second(s), 19 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |