Ollama 常用命令速查表
命令 | 作用 | 示例 |
---|---|---|
ollama run |
运行模型(若未下载则自动拉取) | ollama run deepseek-r1:14b |
ollama list |
列出本地已下载的模型 | ollama list |
ollama pull |
从仓库拉取模型 | ollama pull mistral |
ollama create |
通过 Modelfile 创建自定义模型 | ollama create mymodel -f Modelfile |
ollama rm |
删除本地模型 | ollama rm codellama:7b |
ollama cp |
复制模型 | ollama cp llama2 my-llama2-copy |
ollama show |
显示模型详细信息 | ollama show deepseek-r1:14b |
ollama ps |
查看正在运行的模型实例 | ollama ps |
ollama stop |
停止运行中的模型 | ollama stop deepseek-r1:14b |
ollama serve |
启动 Ollama 后台服务(通常自动运行) | ollama serve |
ollama push |
推送模型至私有仓库 | ollama push my-org/mymodel:latest |
ollama help |
查看命令帮助文档 | ollama help run |
附:高频使用场景
快速启动模型
ollama run deepseek-r1:7b # 自动下载并运行 7B 参数模型
清理存储空间
ollama rm qwen:7b && ollama list # 删除旧模型并验证结果
自定义模型
编写Modelfile
后执行:ollama create my-ai -f ./Modelfile # 从文件创建模型 ollama run my-ai # 运行自定义模型
提示:可通过 --verbose
参数查看详细运行日志(如 ollama run llama2 --verbose
)。如需完整命令说明,可执行 ollama help
或参考官方文档。
第一部分:Modelfile 配置名词详解
配置项 | 作用说明 | 典型应用场景 |
---|---|---|
FROM | 指定基础模型来源,支持本地模型文件(GGUF/Safetensors)、Ollama 官方模型库或 HuggingFace 模型名称 | 导入预训练模型或自定义模型时定义基准架构 |
PARAMETER | 设置模型运行参数,控制生成效果和性能 | 调节生成随机性(temperature)、上下文长度(num_ctx)、停止词(stop)等场景 |
ADAPTER | 加载微调适配器文件(如 QLoRA),需与 FROM 模型架构匹配 | 将预训练模型与特定任务微调权重结合时使用 |
SYSTEM | 定义系统级角色设定,强制模型遵循特定应答风格 | 需要固定身份(如客服助手)、限制应答范围或调整语气时使用 |
TEMPLATE | 定义对话模板结构,规范用户输入与模型输出的格式 | 适配不同模型的特有对话格式(如 Llama3 的 <|im_start|> 标记体系) |
第二部分:模型导入与微调代码示例
一、模型导入方法
1. 导入 GGUF 格式模型(HuggingFace 下载)
# 下载模型文件(示例:Llama3 中文版)
wget https://huggingface.co/zhouzr/Llama3-8B-Chinese-Chat-GGUF/resolve/main/Llama3-8B-Chinese-Chat.q6_k.GGUF
# 编写 Modelfile(文件路径需替换)
FROM ./Llama3-8B-Chinese-Chat.q6_k.GGUF
TEMPLATE """{{- if .System}}<|im_start|>system {{.System}}<|im_end|>{{- end}}
<|im_start|>user{{.Prompt}}<|im_end|>
<|im_start|>assistant"""PARAMETER stop"<|im_start|>"PARAMETER stop"<|im_end|>"
# 创建并运行模型
ollama create my-llama3 -f Modelfile
ollama run my-llama3
说明 :通过FROM
直接加载本地 GGUF 文件,TEMPLATE
需匹配模型原始对话格式
例如导入 360 智脑的 light r1 模型,可以直接 ollama 运行 zhinao/light-r1:14b ,或者先下载好 gguf,然后编辑代码命名为 Modelfile
FROM ./light-r1-14b-ds.Q4 K M.gguf
PARAMETER temperature 0.6
PARAMETER num ctx 4096
然后再 cmd 中执行命令即可
ollama create light-r1-14b-ds -f Modelfile
2. 导入 Safetensors 适配器(微调权重)
# Modelfile 配置(需先下载基础模型)
FROM qwen2:1.5b
ADAPTER ./lora-adapter.safetensors
# 创建融合模型
ollama create qwen-tuned -f Modelfile
说明 :ADAPTER
指向适配器目录,基础模型需与适配器架构一致
3. 导入完整 Safetensors 模型
# Modelfile 指向模型目录
FROM ./mistral-7b-safetensors
# 生成可运行模型
ollama create mistral-custom
说明:适用于从 HuggingFace 导出的完整模型权重
二、微调模型代码示例
1. 通过 Modelfile 快速微调
# 创建 Modelfile(角色设定微调)
FROM qwen2.5:0.5b
SYSTEM """你叫张小明,回答时用口语化中文"""
PARAMETER temperature 0.3
# 生成定制模型
ollama create xiaoming -f Modelfile
ollama run xiaoming
效果验证:输入”你是谁?”,模型应答应为”我是张小明”
2. 进阶微调(LoRA 适配器训练)
# 使用 llama-factory 训练适配器(示例代码)
from transformers import Trainer, TrainingArguments
trainer = Trainer(
model=model,
args=TrainingArguments(
output_dir="./lora-output",
per_device_train_batch_size=4,
gradient_accumulation_steps=4
),
train_dataset=dataset
)
trainer.train()
# 转换适配器为 Ollama 可用格式
python3 convert.py --input ./lora-output --output ./ollama-adapter
后续操作 :将生成的适配器通过ADAPTER
指令加载
关键要点总结
- 格式兼容性 :GGUF 适配通用场景,Safetensors 适配进阶微调
- 参数调优 :
num_ctx
控制长文本处理能力,temperature
调节创造性 - 硬件适配 :显存不足时可设置
OLLAMA_GPU_OVERHEAD
保留缓冲空间
目录
Ollama 常用命令速查表
- 附:高频使用场景
第一部分:Modelfile 配置名词详解
第二部分:模型导入与微调代码示例
- 一、模型导入方法
- 1. 导入 GGUF 格式模型(HuggingFace 下载)
- 2. 导入 Safetensors 适配器(微调权重)
- 3. 导入完整 Safetensors 模型
- 二、微调模型代码示例
- 1. 通过 Modelfile 快速微调
- 2. 进阶微调(LoRA 适配器训练)
关键要点总结