sakananote: GCP GCE 掛載 GPU小記

星期四, 10月 03, 2024

GCP GCE 掛載 GPU小記

GCP GCE 掛載 GPU小記

隨著 AI 的熱度越來越高, GPU 運算的需求也越來越多, 除了使用雲端的 Manage Service 之外, 也有需求是使用雲端上面的 VM 掛載 GPU 來進行一些實驗, 例如

Stable Diffusion - https://stability.ai/
Ollama - https://ollama.com/

今天就來實作 GCP 上面的 GCE 如何掛載 GPU

開始之前, 先跟大家說明, 如果要掛載 GPU, 其實是要先去申請 GPU quota 的, 主要會有兩類

GPUs (all regions) - 針對所有地區的 GPU quota - 預設為 0
你要申請的該 Region, 該 GPU 顯卡的型號, 你的使用方式 (承諾/搶佔 ..) 目前的 quota
可以參考官方文件 https://cloud.google.com/compute/resource-usage?hl=zh-cn#gpu_quota

以台灣地區為例 (asia-east1-b), 我也整理了一個表格, 然後按照費用排序

GPU type	Number of GPUs	Monthly estimate USD	Monthly estimate TWD (匯率 1:32)	Machine type	對應型號	備註
NVIDIA H100 80GB MEGA	8	78,874	2,523,961	208 vCPU + 1,872 GB memory	a3-megagpu-8g	asia-east-1 不支援預設沒有相對quota (CPUs)
NVIDIA H100 80GB	8	74,723	2,391,133	208 vCPU + 1,872 GB memory	a3-highgpu-8g	asia-east-1 不支援預設沒有相對quota (CPUs)
NVIDIA A100 80GB	1	4,281	136,984	12 vCPU + 170 GB memory	a2-ultragpu-1g	asia-east-1 不支援預設沒有相對quota(NVDIA A100 80GB GPUs)
NVIDIA A100 40GB	1	2,768	88,570	12 vCPU + 85 GB memory	a2-highgpu-1g	asia-east-1 不支援預設沒有相對quota (NVIDIA A100 GPUs)
NVIDIA V100	1	1,296	41,484	1 vCPU + 3.75 GB memory	n1-standard-1
NVIDIA Tesla P100	1	847	27,094	1 vCPU + 3.75 GB memory	n1-standard-1
NVIDIA L4	1	598	19,151	4 vCPU + 16 GB memory	g2-standard-4
NVIDIA Tesla P4	1	361	11,560	1 vCPU + 3.75 GB memory	n1-standard-1	asia-east-1 不支援
Nvidia T4	1	208	6,654	1 vCPU + 3.75 GB memory	n1-standard-1	預設選項

這個部分就可以快速去對應自己的需求與荷包來看看要申請哪種類型的 GPU (storage 空間為預設)

接下來我以在 asia-east1-b 建立 openSUSE Leap 15.6 GCE 掛載 Nvidia T4 (無調整過 GPU quota)

在建立GCE 的時候就會出現錯誤訊息

這邊就是我們上面提的 GPUs (all regions) quota 不足

點選 REQUEST QUOTA

會自動轉導向到 Quota 頁面

點選 GPUs(all regions) 功能表的 Edit Quota

這個時候會出現 Quota changes 畫面

原本的 value 為 0, 輸入新的 value 與提升 quota 原因 -- > Done

點選 Next

確認姓名與Email -- > SUBMIT REQUEST

出現已經送出 Request 與案件 ID, 關閉目前的視窗

接下來去檢查信箱, 就會收到通知信

因為額度不是要求很多, 所以我的通知信與通知接受提升 GPU quota 幾乎只有差一到兩分鐘就通過
通過的信件有告知, 可能需要 15 分鐘的時間生效

再次檢查 quota

就會發現 GPUs (all regions) quota 就提升到剛剛要求的數值

再次嘗試建立 GCE with GPU, 應該就可以建立成功

可以在該機器的 Machine configuration 的 GPUs 觀察掛載的 GPU

有了 GCE with GPU, 就離研究更進一步

~ enjoy it

References

沒有留言:

訂閱：張貼留言 (Atom)