ollama 团队近日发布了 0.11.9-rc0 测试版,重点提升了 CPU/GPU 并行性能。此次更新引入了新的执行机制,让 GPU 在处理当前批次任务的同时,CPU 可以并行准备下一批计算,从而减少 GPU 空闲等待时间,旨在提升其在多平台运行 AI 大语言模型时的整体性能。 在实测中,macOS Metal 环境下 token 处理速度提升约 2–3%,而在... 开源跨平台大模型工具 Ollama 发布 0.11.9-rc0 测试版下载地址