Ollama下载与安装:一步步教你在本地部署LLMs

Ollama 下载与安装:一步步教你在本地部署 LLMs

近年来,大型语言模型 (LLMs) 取得了令人瞩目的进展,例如 ChatGPT 和 Bard,它们展现了强大的文本生成、翻译、问答等能力。然而,这些模型通常需要大量的计算资源,并且依赖于云端服务器。对于想要在本地体验 LLMs 的用户来说,Ollama 提供了一个简单易用的解决方案。

Ollama 是一个开源工具,可以让你轻松地在本地运行、创建和共享大型语言模型。它支持多种流行的 LLMs,例如 Llama 2、Mistral、Gemma 等,并提供了简洁的命令行界面和 API 接口,方便用户使用。

本文将详细介绍 Ollama 的下载和安装过程,并指导你如何在本地部署和使用 LLMs。

一、系统要求

Ollama 目前支持以下操作系统:

  • macOS (11.0 Big Sur 及以上版本)
  • Linux (支持多种发行版)
  • Windows (通过 WSL 2 支持)

在安装 Ollama 之前,请确保你的系统满足以下要求:

  • 足够的存储空间: 大型语言模型通常需要几个 GB 的存储空间。
  • 足够的内存: 建议至少 8GB 内存,更大的模型可能需要 16GB 或更多。
  • 较新的 CPU: 建议使用较新的 CPU 以获得更好的性能。
  • (可选)GPU: 如果你的电脑配备了 NVIDIA GPU,Ollama 可以利用 GPU 加速,显著提高模型运行速度。

二、下载与安装

Ollama 的安装过程非常简单,根据你的操作系统选择以下步骤:

1. macOS

  • 下载: 打开终端 (Terminal),运行以下命令:

bash
curl -fsSL https://ollama.com/install.sh | sh

  • 这个命令会下载 install.sh 脚本并执行它。该脚本会自动下载并安装 Ollama 到你的系统中。

2. Linux

  • 下载: 与 macOS 类似,打开终端 (Terminal),运行以下命令:

bash
curl -fsSL https://ollama.com/install.sh | sh

  • 该脚本会自动下载并安装 Ollama。
  • (可选)NVIDIA GPU 支持: 如果你希望使用 NVIDIA GPU 加速,请确保你已经安装了 NVIDIA 驱动程序和 CUDA 工具包。Ollama 安装脚本会自动检测并配置 GPU 支持。

3. Windows (通过 WSL 2)

  • 启用 WSL 2 和 虚拟化:
    • 在 Windows 搜索栏中搜索 "启用或关闭 Windows 功能",并打开它。
    • 勾选 "适用于 Linux 的 Windows 子系统" 和 "虚拟机平台"。
    • 点击 "确定" 并重启电脑。
  • 安装 Linux 发行版:
    • 打开 Microsoft Store,搜索并安装你喜欢的 Linux 发行版 (例如 Ubuntu)。
    • 安装完成后,在开始菜单中找到并启动你的 Linux 发行版。
    • 根据提示设置用户名和密码。
  • 更新 WSL 内核
    • 在管理员权限的 PowerShell 中,执行 wsl --update
  • 在 WSL 2 中安装 Ollama:
    • 在你的 Linux 发行版终端中,运行以下命令:

bash
curl -fsSL https://ollama.com/install.sh | sh

  • 按照 Linux 部分的说明进行操作。
  • (可选)NVIDIA GPU 支持: 请参考微软官方文档,将你的 WSL 2 系统连接至你的 GPU 资源。

三、验证安装

安装完成后,可以通过以下命令验证 Ollama 是否安装成功:

bash
ollama --version

如果安装成功,终端会显示 Ollama 的版本号。

四、运行第一个 LLM

安装完成后,你可以通过以下步骤运行你的第一个 LLM:

  1. 下载模型: 使用 ollama run 命令下载并运行一个模型。例如,要运行 Llama 2 模型,可以使用以下命令:

bash
ollama run llama2

  • 首次运行该命令时,Ollama 会自动下载 Llama 2 模型文件(大约 4GB)。这可能需要一些时间,具体取决于你的网络速度。
  • 下载完成后,Ollama 会启动模型并进入交互模式。

  • 与模型交互: 你可以在终端中输入问题或指令,模型会生成相应的回复。例如,你可以输入 "Why is the sky blue?",模型会给出解释。

  • 退出交互模式: 输入 /bye 并回车,即可退出交互模式。

五、常用命令

Ollama 提供了以下常用命令:

  • ollama run <model_name>:下载并运行指定的模型。
  • ollama pull <model_name>:仅下载指定的模型,不运行。
  • ollama list:列出所有已下载的模型。
  • ollama rm <model_name>:删除指定的模型。
  • ollama help:查看帮助信息。
  • ollama serve:启动 Ollama 服务,允许通过 API 接口访问。

六、使用 API 接口

Ollama 还提供了 REST API 接口,方便你将 LLMs 集成到自己的应用程序中。默认情况下,API 服务运行在 http://localhost:11434

你可以使用各种编程语言 (例如 Python、JavaScript 等) 发送 HTTP 请求到 API 接口,实现与 LLMs 的交互。

以下是一个使用 Python 和 requests 库与 Ollama API 交互的简单示例:

```python
import requests
import json

def generate_response(prompt):
url = "http://localhost:11434/api/generate"
data = {
"model": "llama2",
"prompt": prompt,
}
response = requests.post(url, json=data)

full_response = ""
for line in response.iter_lines():
    if line:
        decoded_line = line.decode('utf-8')
        json_data = json.loads(decoded_line)
        full_response += json_data["response"]
return full_response

prompt = "Why is the sky blue?"
response = generate_response(prompt)
print(response)
```

七、结语

Ollama 为本地部署和使用 LLMs 提供了一个简单便捷的解决方案。通过本文的介绍,你应该已经掌握了 Ollama 的下载、安装和基本使用方法。你可以进一步探索 Ollama 的高级功能,例如自定义模型、微调模型等,并在你的项目中使用 LLMs 的强大能力。希望这篇文章能够帮助你在本地开启 LLMs 的探索之旅!

THE END