用 Ollama 轻松玩转本地大模型 - 少数派(https://sspai.com/post/85193)
根据经验,16 位浮点精度(FP16)的模型,推理所需显存(以 GB 为单位)约为模型参数量(以 10 亿为单位)的两倍。据此,Llama 2 7B(70 亿)对应需要约 14GB 显存以进行推理,这显然超出了普通家用计算机的硬件规格。作为参考,一块 GeForce RTX 4060 Ti 16GB 显卡市场价超过 3000 元。
如果你仔细读了前文演示中「天空为什么是蓝色的」的回答,可能隐约感觉到一丝异样——恭喜,你成功捕捉到了一次大语言模型的「幻觉」。实际上,因为参数量小又经过量化折损,适合在本地运行的模型更容易出现幻觉,严重时甚至会前言不搭后语。对此,唯一的缓解办法可能就是在条件允许的前提下,尽量运行参数更多的模型。
发表评论