LLM相关技术名词备忘

蒸馏

简单理解为从其他模型如Qwen 7B中提取知识来训练自己,旨在减小模型大小,提供更高效的推理能力。

LLM

LLM(Large Language Model )大语言模型

量化

在深度学习中,模型的权重和激活值通常使用高精度的浮点数表示,如 32 位浮点数(FP32)。量化技术将这些高精度的浮点数转换为低精度的定点数或整数表示,如 8 位整数(INT8)。这么做的作用就是减少存储空间的占用、加速推理速度、减少GPU资源的占用,但是会损失一定的模型精度。

  • FP32(32位浮点数):每个参数占用 4 字节。
  • FP16(16位浮点):每个参数占用 2 字节。
  • FP8:(8位浮点):每个参数占用 2 字节。
  • INT8(8位整数):每个参数占用 1 字节。
  • INT4(4位整数):每个参数占用 0.5 字节。

DeepSeeK Github:“Since FP8 training is natively adopted in our framework, we only provide FP8 weights. If you require BF16 weights for experimentation, you can use the provided conversion script to perform the transformation.”

DeepSeek官方提供的满血版模型为FP8量化,官方提供的其余蒸馏版本为BF16量化。

Ollama提供的模型均为INT4量化。

BF16

BF16(bfloat16,Brain Floating Point 16) 格式的结构与标准的 FP32(32 位浮点数)相似,包含 1 位符号位、8 位指数位和 7 位尾数位。与传统的 FP16 格式不同,FP16 的尾数部分有 10 位,而 BF16 则减少到了 7 位,牺牲了一些精度,但保留了更大的指数范围,使其在处理大范围的数值时更加稳定。
BF16 格式的一个重要特点是,它在计算过程中能够与 FP32 格式兼容,因此它在处理深度学习模型时,不需要大幅度改变原有的计算流程,从而提供了很好的计算效率。

b

b(billion),表示模型的参数数目为 x 十亿个,7b = 70亿, 32b = 320亿

VRAM

VRAM (Video Random-Access Memory):
VRAM 是一种专门用于图形卡的内存类型,设计上主要用于存储图像和视频数据。它是 DRAM 的一种变体,专门用于加速图形处理和提高图形性能。与 DRAM 不同,VRAM 具有双端口设计,即可以同时进行读取和写入操作,这对图形处理非常重要,能够大幅提升显示设备的性能。在图形渲染过程中,VRAM 存储的内容包括纹理、图像数据和视频缓冲区等,保证图形的流畅输出。
总结:VRAM:显卡内存,专门用于图形处理和视频显示,提升图形性能。


DRAM

DRAM (Dynamic Random-Access Memory):
DRAM 是一种常见的内存类型,用于计算机的主内存。它以“动态”方式存储数据,即需要定期刷新电容来保持数据的完整性。DRAM 相较于其他类型的内存(比如 SRAM)成本较低,但速度较慢,因此通常作为系统的主内存使用。每个内存单元由一个电容和一个晶体管组成,电容会随着时间消耗电荷,因此需要不断刷新来保持数据。
总结:DRAM:系统内存,负责存储计算机当前运行的程序和数据。

RAG

RAG “Retrieval-Augmented Generation” 检索增强生成
大模型的数据一般是静态的,无法覆盖最新或特定领域知识,RAG技术就允许动态引入外部知识库(如内部文档、新闻等),引用知识库中的内容来总结回答,减少幻觉,可大大提升LLM的时效性和专业性。

赞(2) 打赏
未经允许不得转载:万万没想到 » LLM相关技术名词备忘

评论 抢沙发

评论前必须登录!

立即登录   注册

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

登录

找回密码

注册