浏览次数: 158
Ollama官网:https://github.com/ollama/ollama/tree/main
一、安装与基础命令
1. 安装/升级
# 安装
curl -fsSL https://ollama.com/install.sh | sh # Linux/macOS
winget install ollama.ollama # Windows
# 升级
ollama upgrade
2. 终端测试
curl http://172.16.1.100:11434/api/tags
3. curl对话测试
curl http://172.16.1.100:11434/api/chat \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3:8b",
"messages": [
{ "role": "user", "content": "你是谁?" }
],
"stream": false
}'
4. 模型管理
| 命令 |
作用 |
ollama pull <模型名> |
下载模型(如 llama3) |
ollama list |
查看已下载模型 |
ollama rm <模型名> |
删除模型 |
ollama create -f Modelfile |
自定义模型 |
二、运行与监控
1. 启动模型
ollama run llama3 # 交互式对话
ollama run llama3 "你好!" # 单次提问
ollama serve # 启动API服务(默认端口11434)
2. 监控资源占用
| 工具 |
功能 |
示例命令 |
top / htop |
实时CPU/内存 |
top -p $(pgrep ollama) |
nvidia-smi |
NVIDIA GPU占用 |
nvidia-smi -l 1 |
gpustat |
简易GPU监控 |
gpustat -i 1 |
glances |
全系统监控 |
glances |
3. 关闭正在运行的模型
方法 1:终止进程
ps aux | grep ollama # 查找进程ID(如 12345)
kill -9 12345 # Linux/macOS
taskkill /PID 12345 /F # Windows
方法 2:停止服务
ollama serve --stop # 停止所有Ollama服务
验证是否关闭
ps aux | grep ollama # 确认无相关进程
三、高级配置
1. 限制资源
编辑 ~/.ollama/config.json:
{
"num_gpu_layers": 20, // 减少GPU负载
"num_threads": 4, // 限制CPU线程
"main_gpu": 0 // 指定GPU
}
2. 启用硬件加速
OLLAMA_NO_CUDA=0 ollama run llama3 # NVIDIA GPU
OLLAMA_NO_METAL=0 ollama run llama3 # macOS Metal
四、常见场景示例
| 场景 |
操作 |
| 本地问答 |
ollama run llama3 "解释量子力学" |
| 代码生成 |
ollama run codellama "写Python冒泡排序" |
| 释放资源 |
kill -9 <PID> 或 ollama serve --stop |
| 调试模型 |
ollama run llama3 --verbose |
五、问题排查
| 问题 |
解决方案 |
| GPU未启用 |
检查 nvidia-smi,确认 OLLAMA_NO_CUDA=0 |
| 内存不足 |
换用小模型(如 llama3-8b) |
| 端口冲突 |
修改配置中的 "host": "0.0.0.0:11435" |
六、速查表
| 任务 |
命令 |
| 下载模型 |
ollama pull deepseek-r1:1.5b |
| 关闭模型 |
kill -9 <PID> 或 ollama serve --stop |
| 监控GPU |
nvidia-smi -l 1 |
| 自定义模型 |
编辑 Modelfile → ollama create |
- 常见问题
- Q:关闭后模型会丢失吗?
A:不会,模型文件仍保存在本地(可通过 ollama list 查看),下次运行时会重新加载。
- Q:如何避免频繁手动关闭?
A:使用 Ctrl+C 终止交互式会话(直接关闭终端可能不会释放资源)。