原因默认上下文太大调小上下文即可。解决windows下可以直接在界面设置也可以设置环境变量OLLAMA_CONTEXT_LENGTH目标必须让模型都跑在GPU上如果GPUCPU那就会很慢当然也可以通过ollama runner运行这里可以更精细控制各种底层参数。