用 Ollama 轻松玩转本地大模型 - 少数派:https://sspai.com/post/85193

用 Ollama 轻松玩转本地大模型 - 少数派(https://sspai.com/post/85193)

根据经验，16 位浮点精度（FP16）的模型，推理所需显存（以 GB 为单位）约为模型参数量（以 10 亿为单位）的两倍。据此，Llama 2 7B（70 亿）对应需要约 14GB 显存以进行推理，这显然超出了普通家用计算机的硬件规格。作为参考，一块 GeForce RTX 4060 Ti 16GB 显卡市场价超过 3000 元。

如果你仔细读了前文演示中「天空为什么是蓝色的」的回答，可能隐约感觉到一丝异样——恭喜，你成功捕捉到了一次大语言模型的「幻觉」。实际上，因为参数量小又经过量化折损，适合在本地运行的模型更容易出现幻觉，严重时甚至会前言不搭后语。对此，唯一的缓解办法可能就是在条件允许的前提下，尽量运行参数更多的模型。