TipOllama 是在本地运行大语言模型的最简单方式,一行命令即可下载和运行 Llama、Qwen、DeepSeek 等开源模型。
Ollama 简介
Ollama 是一个开源的大语言模型本地运行框架,支持 macOS、Linux 和 Windows,让你无需复杂的配置就能在本地运行各种开源大模型。
支持的模型
| 模型 | 参数规模 | 显存需求 | 特点 |
|---|---|---|---|
| llama3.2 | 1B/3B | 2-4GB | Meta 最新,多语言 |
| qwen2.5 | 0.5B-72B | 1-48GB | 阿里通义,中文优秀 |
| deepseek-r1 | 1.5B-671B | 2-400GB | 推理能力强 |
| phi4 | 14B | 16GB | 微软出品,代码强 |
| gemma2 | 2B-27B | 4-22GB | Google 开源 |
Windows 安装
方式一:官方安装包(推荐)
# 1. 下载安装程序# 访问 https://ollama.com/download/windows# 下载 OllamaSetup.exe 并运行
# 2. 验证安装ollama --version
# 3. 启动服务ollama serve方式二:WSL2 安装(Linux 子系统)
# 在 WSL2 Ubuntu 中执行curl -fsSL https://ollama.com/install.sh | sh
# 配置 Windows 访问export OLLAMA_HOST=0.0.0.0:11434ollama serveWindows 环境变量配置
# 设置模型存储路径(默认在 C 盘,建议改到 D 盘)[Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\ollama-models", "User")
# 设置监听地址(允许局域网访问)[Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0:11434", "User")
# 设置并发数[Environment]::SetEnvironmentVariable("OLLAMA_NUM_PARALLEL", "4", "User")Linux 安装
自动安装脚本
# 官方安装脚本curl -fsSL https://ollama.com/install.sh | sh
# 验证安装ollama --version手动安装
# Ubuntu/Debiansudo apt-get updatesudo apt-get install -y curl
# 下载 Ollamasudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollamasudo chmod +x /usr/bin/ollama
# 创建服务用户sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
# 创建 systemd 服务cat > /tmp/ollama.service << 'EOF'[Unit]Description=Ollama ServiceAfter=network-online.target
[Service]ExecStart=/usr/bin/ollama serveUser=ollamaGroup=ollamaRestart=alwaysRestartSec=3Environment="PATH=$PATH"Environment="OLLAMA_HOST=0.0.0.0:11434"
[Install]WantedBy=default.targetEOF
sudo mv /tmp/ollama.service /etc/systemd/system/
# 启动服务sudo systemctl daemon-reloadsudo systemctl enable ollamasudo systemctl start ollamasudo systemctl status ollamaDocker 部署
# 拉取镜像docker pull ollama/ollama:latest
# 运行容器docker run -d \ --name ollama \ --gpus all \ -p 11434:11434 \ -v ollama:/root/.ollama \ --restart always \ ollama/ollama:latest模型下载与运行
常用命令
# 拉取模型ollama pull qwen2.5:7bollama pull llama3.2:latestollama pull nomic-embed-text # 嵌入模型
# 运行模型(交互式)ollama run qwen2.5:7b
# 列出本地模型ollama list
# 删除模型ollama rm qwen2.5:7b
# 查看模型信息ollama show qwen2.5:7b创建自定义模型
# 创建 Modelfilecat > Modelfile << 'EOF'FROM qwen2.5:7b
SYSTEM """你是一个专业的代码助手,擅长 Java 和 Spring 生态。"""
PARAMETER temperature 0.7PARAMETER num_predict 2048EOF
# 构建模型ollama create my-assistant -f Modelfile
# 运行自定义模型ollama run my-assistantAPI 调用
REST API
# 生成文本curl http://localhost:11434/api/generate -d '{ "model": "qwen2.5:7b", "prompt": "用 Java 写一个快速排序", "stream": false}'
# 聊天接口curl http://localhost:11434/api/chat -d '{ "model": "qwen2.5:7b", "messages": [ {"role": "user", "content": "你好"} ], "stream": false}'
# 嵌入向量curl http://localhost:11434/api/embeddings -d '{ "model": "nomic-embed-text", "prompt": "这是一段测试文本"}'Python 调用
import requests
# 生成文本response = requests.post('http://localhost:11434/api/generate', json={ 'model': 'qwen2.5:7b', 'prompt': '用 Python 写一个斐波那契数列函数', 'stream': False})print(response.json()['response'])
# 使用 OpenAI 兼容接口import openai
client = openai.OpenAI( base_url='http://localhost:11434/v1', api_key='ollama')
response = client.chat.completions.create( model='qwen2.5:7b', messages=[ {'role': 'user', 'content': '你好'} ])print(response.choices[0].message.content)WebUI 配置
安装 Open WebUI
# Docker 方式(推荐)docker run -d \ --name open-webui \ --restart always \ -p 3000:8080 \ -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \ -v open-webui:/app/backend/data \ ghcr.io/open-webui/open-webui:main
# 访问 http://localhost:3000性能优化
GPU 加速
# 安装 NVIDIA Container Toolkitdistribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \ sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get updatesudo apt-get install -y nvidia-container-toolkitsudo systemctl restart docker
# 运行 GPU 版 Ollamadocker run -d --gpus all -p 11434:11434 ollama/ollama模型量化
# 使用更小量化版本(节省显存)ollama pull qwen2.5:4b # 4-bit 量化ollama pull qwen2.5:1.5b # 超小版本并发配置
# Linux 环境变量export OLLAMA_NUM_PARALLEL=4 # 并发请求数export OLLAMA_MAX_LOADED_MODELS=2 # 最大加载模型数export OLLAMA_MAX_QUEUE=512 # 请求队列长度常见问题
模型下载慢
# 使用镜像加速(国内)export OLLAMA_REGISTRY_MIRROR=https://registry.npmmirror.com
# 或使用代理export HTTP_PROXY=http://127.0.0.1:7890export HTTPS_PROXY=http://127.0.0.1:7890显存不足
# 使用 CPU 运行export OLLAMA_NOGPU=1ollama serve
# 或使用更小模型ollama pull qwen2.5:0.5b与 Spring AI 集成
Maven 依赖
<dependency> <groupId>org.springframework.ai</groupId> <artifactId>spring-ai-ollama-spring-boot-starter</artifactId></dependency>配置
spring: ai: ollama: base-url: http://localhost:11434 chat: model: qwen2.5:7b options: temperature: 0.7 num-predict: 2048 embedding: model: nomic-embed-text模型推荐
按显存选择
| 显存大小 | 推荐模型 | 性能 |
|---|---|---|
| 4GB | qwen2.5:1.5b | 基础对话 |
| 8GB | qwen2.5:7b | 良好推理 |
| 16GB | qwen2.5:14b | 优秀推理 |
| 24GB+ | qwen2.5:32b | 接近 GPT-4 |
中文场景推荐
# 1. 综合能力强ollama pull qwen2.5:7b
# 2. 代码能力ollama pull deepseek-coder:6.7b
# 3. 嵌入模型(RAG 必备)ollama pull nomic-embed-text总结
Ollama 大大降低了本地运行大模型的门槛,建议:
- 开发环境:直接安装,快速验证
- 生产环境:Docker 部署,配置 GPU 加速
- 团队协作:配合 Open WebUI 提供统一界面
Important生产环境部署建议配置监控、日志收集和模型自动更新机制。
参考链接: