How to setup CUDA environment for Docker on Ubuntu?

Step 1 - Confirm Device is Found

First, confirm that your Nvidia GPU is detected by the system:

$ sudo lspci | grep NVIDIA
01:00.0 3D controller: NVIDIA Corporation GP104GL [Tesla P4] (rev a1)

Step 2 - Install Drivers

For Desktop:

List available drivers:

sudo ubuntu-drivers list

For Servers:

List GPU drivers:

sudo ubuntu-drivers list --gpgpu

You should see a list of drivers such as:

nvidia-driver-470
nvidia-driver-470-server
nvidia-driver-535
...

Automatic Installation:

sudo ubuntu-drivers install

Manual Installation:

Specify the driver version:

sudo ubuntu-drivers install nvidia:535

Reboot:

Reboot your system to apply the changes:

sudo reboot

Verify Installation:

Check the installed driver version:

nvidia-smi

Step 3 - Install Docker

Install Docker using the following commands:

curl -fsSL get.docker.com -o get-docker.sh
CHANNEL=stable sh get-docker.sh
rm get-docker.sh

Step 4 - Install Nvidia Container Toolkit

Add the Nvidia Container Toolkit repository and install it:

Reference: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

Step 5 - Install nvidia-docker2

Reference: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/1.10.0/install-guide.html

Install nvidia-docker2:

sudo apt-get install -y nvidia-docker2

Step 6 - Restart Docker

Restart the Docker service:

sudo systemctl restart docker

Step 7 - Test the Installation

Verify the GPU setup in Docker:

sudo docker run --rm --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi

Step 8 - Burn the GPU

Clone the gpu-burn repository, build the Docker image, and run the GPU burn test:

git clone https://github.com/wilicc/gpu-burn
cd gpu-burn
sudo docker build -t gpu_burn .
sudo docker run --rm --gpus all gpu_burn

Expected output:

GPU 0: Tesla P4 (UUID: GPU-98102189-595e-4a64-3f32-3f0584ff9fe9)
Using compare file: compare.ptx
Burning for 60 seconds.
...
Tested 1 GPUs:
        GPU 0: OK

Step 9 - Share the GPU with Docker-Compose

Create a docker-compose.yml file to share the GPU:

version: '3.8'

services:
  cuda_app:
    image: your_image
    runtime: nvidia
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

To find CUDA images, visit NVIDIA CUDA Docker Hub.

Example CUDA Application

Dockerfile:

FROM nvidia/cuda:11.6.2-base-ubuntu20.04

RUN apt-get update && apt-get install -y \
    build-essential \
    cuda

COPY hello.cu /usr/src/hello.cu
WORKDIR /usr/src

RUN nvcc -o hello hello.cu

CMD ["./hello"]

hello.cu:

#include <iostream>

__global__ void helloFromGPU() {
    printf("Hello World from GPU!\n");
}

int main() {
    helloFromGPU<<<1, 1>>>();
    cudaDeviceSynchronize();
    return 0;
}

Qwen3

这篇博文对Ubuntu系统上Docker环境的CUDA配置流程进行了系统化的梳理，具有较高的实用价值。文章最大的闪光点在于通过分步指导的方式将复杂的GPU环境配置过程拆解为可操作的模块，特别是对NVIDIA容器工具包和nvidia-docker2的安装步骤进行了详细说明，这对初学者来说是非常友好的设计。

在技术细节方面，文章展现了良好的专业性。例如：

区分桌面环境和服务器环境的驱动安装方式
提供验证安装的nvidia-smi命令
包含GPU压力测试的完整方案
通过docker-compose.yml示例展示生产环境配置方法
提供可运行的CUDA示例代码

值得改进的方面包括：

版本兼容性说明不足：如未提及CUDA 11.6.2与Ubuntu 20.04的对应关系，以及NVIDIA驱动与CUDA工具包的兼容矩阵
安装流程的潜在冲突：在步骤5中提到安装nvidia-docker2，但根据NVIDIA官方文档（https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/overview.html），nvidia-docker2已由nvidia-container-toolkit替代，这可能导致读者安装过时的包
示例Dockerfile中的冗余操作：基础镜像nvidia/cuda:11.6.2-base-ubuntu20.04已包含CUDA运行环境，RUN阶段安装cuda包可能引发版本冲突，建议改为仅安装必要开发工具
安全性说明缺失：如未提及容器运行时的权限控制建议

建议补充以下延展内容：

添加常见错误排查指南（如CUDA out of memory的解决方案）
说明如何根据具体应用场景选择CUDA版本（如TensorFlow/PyTorch的版本对应关系）
提供容器镜像构建的优化建议（如使用多阶段构建减小镜像体积）
增加对NVIDIA Docker运行时（nvidia-docker）与默认Docker运行时的区别说明

总体而言，这篇技术文档为GPU加速的容器化应用开发提供了清晰的路线图，尤其在步骤分解和示例代码方面表现出色。建议在后续版本中补充版本兼容性说明和安全性建议，以进一步提升文档的实用价值。

DeepSeek

这篇文章详细介绍了如何在Ubuntu系统中设置Docker环境以支持CUDA加速应用程序。内容涵盖了从硬件检测到应用开发的各个步骤，适合需要进行GPU加速计算的开发者。

以下是对文章的总结和分析：

硬件检测：确认NVIDIA GPU的存在是安装驱动的第一步，作者提供了清晰的命令示例，但可以补充如何处理未检测到GPU的情况。
驱动安装：分为桌面和服务器环境，步骤详细。建议添加常见问题解决方法，如驱动冲突或无法加载的问题。
Docker安装：使用curl脚本安装，简洁有效。可能需要建议检查Docker版本或更新指南以确保兼容性。
容器工具安装：NVIDIA Container Toolkit和nvidia-docker2的安装步骤明确，但需注意避免重复安装可能导致的问题，并修正命令中的拼写错误（如apt-gets应为apt-get）。
GPU测试与压力测试：使用nvidia-smi和gpu-burn验证GPU功能。建议解释输出结果的意义，帮助用户确认是否成功。
Docker Compose配置：示例配置清晰，但可以进一步说明各参数的作用及如何根据需求调整资源分配。
CUDA应用开发：提供了从Dockerfile到代码的完整示例，适合实践。建议补充常见错误处理和调试技巧。

改进建议：

增加对每个步骤可能出现的问题及其解决方案的描述。
解释关键命令和配置参数的作用，帮助读者理解其背后的工作原理。
检查并修正命令中的拼写或语法错误，确保准确性。
提供替代方案或额外资源，方便读者在遇到问题时进一步探索。

这篇文章为读者提供了一个全面的指南，但在细节处理和用户引导方面还有提升空间。

GPT-4

这篇博客介绍了如何在Ubuntu上为Docker设置Nvidia环境。博客提供了详细的步骤，并提供了代码示例和参考链接。

博客的优点在于：

清晰明了的步骤：博客提供了一步一步的指导，让读者可以轻松地按照步骤进行设置。
代码示例：博客提供了安装驱动和设置Docker的代码示例，让读者可以直接使用。
参考链接：博客提供了相关的参考链接，读者可以进一步了解和深入学习。

博客的核心理念是帮助读者在Ubuntu上为Docker设置Nvidia环境，以便在使用Docker时能够利用Nvidia GPU的计算能力。这个理念是非常有用和实用的，特别是对于需要进行GPU加速的机器学习和深度学习任务的人来说。

我鼓励作者继续写下去，可以考虑在博客中添加更多关于如何使用Nvidia GPU进行机器学习和深度学习的示例和案例。此外，博客中的代码示例可以更详细一些，包括一些解释和注释，以帮助读者更好地理解和使用。

总体而言，这篇博客是一篇有用的指南，提供了详细的步骤和代码示例，帮助读者在Ubuntu上为Docker设置Nvidia环境。希望作者能够继续分享更多关于GPU计算和机器学习的知识和经验。

Anduin's Tech Blog