当前位置: 首页 > news >正文

[笔记]GGML 或GGUF的14种不同量化模式说明

 14 种不同的 GGML 模型,对应于不同类型的量化。它们遵循特定的命名约定:“q”+ 用于存储权重的位数(精度)+ 特定变体。以下是所有可能的量化方法及其相应用例的列表,基于 TheBloke 制作的模型卡中的描述,针对llama2模型架构:

q2_k:将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量,Q2_K用于其他张量。

q3_k_l:将 Q5_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K

q3_k_m:将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K

q3_k_s:将Q3_K用于所有张量

q4_0:原始量化方法,4 位。

q4_1:精度高于q4_0但不如q5_0。但是,与 q5 模型相比,推理速度更快。

q4_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q4_K

q4_k_s:将Q4_K用于所有张量

q5_0: 原始量化方法,5位。精度更高,资源使用率更高,推理速度更慢。

q5_1:精度高于q5_0但不如q6_k。但是,与 q6 模型相比,推理速度更快。

q5_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q5_K

q5_k_s:将Q5_K用于所有张量

q6_k:将Q8_K用于所有张量

q8_0:与浮点数16几乎无法区分。资源使用率高,速度慢。不建议大多数用户使用。

建议使用 Q5_K_M,因为它保留了模型的大部分性能。或者,如果要节省一些内存,可以使用 Q4_K_M。一般来说,K_M版本比K_S版本更好。我不推荐 Q2 或 Q3 版本,因为它们会大大降低模型性能。

 转自:https://www.oldming.cn/archives/GGUF

http://www.aitangshan.cn/news/627.html

相关文章:

  • Visual studio 2017安装教程 VS2017(附安装包)
  • Python装饰器底层原理
  • 用 Amazon Q AI 写了个 PHP 缓存库,解决” 若无则获取并回填” 这个老问题
  • 安装mkcert的ip证书
  • 告别外发文件管理乱象:Ftrans B2B为企业筑牢数据安全防线!
  • 转:UML一一 类图关系 (泛化、实现、依赖、关联、聚合、组合)_uml类图关系
  • 8.12
  • 动态规划题单做题日志
  • 告别传统FTP!国产FTP服务器软件如何实现10倍速升级?
  • 率先对接GPT-5!燕千云AI能力重磅升级,打造企业级全栈大模型服务生态
  • 国产化FPGA-2050-基于JFMK50T4(XC7A50T)的核心板
  • Luogu题解:P13463 [GCJ 2008 #1C] Text Messaging Outrage
  • Prometheus 告警时为何无法获取现场值
  • Luogu题解:P13427 [COCI 2020/2021 #2] Odasiljaci
  • post提交数据到服务器应该使用textarea还是div editable
  • Python 库 DuckDB
  • OpenCV入门(16):图像滤波(平滑处理)
  • Luogu题解:P13594 『GTOI - 1A』Bath
  • G. ABBC or BACB
  • 第十一届能源材料与电力工程学术会议(ICEMEE 2025)
  • JetBrains WebStorm 2025.2 (macOS, Linux, Windows) - JavaScript 和 TypeScript IDE
  • 牛逼!花了9天,开发了一款一站式智能测试平台:STP!
  • 第八届IEEE机电一体化与计算机技术工程国际学术会议(MCTE 2025)
  • VMware Avi Load Balancer 30.2.4 - 多云负载均衡平台
  • VMware NSX 4.2.3 - 网络安全虚拟化平台
  • JetBrains IDE 2025.2 (macOS, Linux, Windows) - 跨平台开发者工具
  • JetBrains IntelliJ IDEA 2025.2 (macOS, Linux, Windows) - 领先的 Java 和 Kotlin IDE
  • 题解:AT_agc033_e [AGC033E] Go around a Circle
  • 【经管文化主题|高录用快检索】第七届经济管理与文化产业国际学术会议
  • 多线程