cuda

服务器nvcc -v检查不到,只能个人用户安装了

个人用户安装

本来装的12.0,现在发现pytorch没有12.0的,有个功能需要版本一致,只能重新装11.8的cuda了

cuda检验能否使用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import torch
import multiprocessing as mp
import time

def check_cuda(queue):
try:
result = {
"torch.cuda.is_available": torch.cuda.is_available(),
"device_count": torch.cuda.device_count(),
"current_device": torch.cuda.current_device(),
"device_name": torch.cuda.get_device_name(0),
}
queue.put(result)
except Exception as e:
queue.put({"error": str(e)})

if __name__ == "__main__":
queue = mp.Queue()
p = mp.Process(target=check_cuda, args=(queue,))
p.start()

p.join(timeout=5) # 最多等待 5 秒
if p.is_alive():
print("⚠️ CUDA 初始化卡住了,终止子进程!")
p.terminate()
p.join()
else:
result = queue.get()
print("✅ 检测结果:")
for k, v in result.items():
print(f"{k}: {v}")
CUDA_VISIBLE_DEVICES=0 python check_cuda.py可以看多个gpu

使用gpu

  1. nvidia-smi
  2. 如果有pid,想看是谁再用 ps -o user -p pid
  3. 如果是自己的,且想关掉的进程,走 `kill -9 pid`` (我第一次以为这是kill -p (毕竟process),kill详细的放在linux那里比较好)