裸机 GPU 和虚拟 GPU 之间的主要区别在于它们如何使用物理 GPU 资源。使用裸机 GPU,您将获得一台安装了整块 GPU 芯片(或多个芯片)的物理服务器,该芯片完全专用于您在服务器上运行的工作负载。操作系统 (OS) 和硬件之间没有虚拟机管理程序层,因此应用程序可以直接使用 GPU 资源。
使用虚拟 GPU,您可以获得一台虚拟机 (VM),并使用两种类型的 GPU 虚拟化之一,具体取决于您或云提供商的功能:
·VM 使用的整个专用 GPU,也称为直通 GPU
·多个虚拟机使用的共享 GPU,也称为 vGPU
虽然直通 GPU 虚拟机可以访问整个 GPU,但应用程序需要通过客户操作系统和虚拟机管理程序层来访问它。此外,与裸机 GPU 实例不同,应用程序使用的其他关键虚拟机资源(例如 RAM、存储和网络)也进行了虚拟化。

这些架构特征影响以下关键方面:
性能和延迟:在具有虚拟 GPU 的 VM 上运行的应用程序(尤其是 vGPU),与在使用物理 GPU 的裸机上运行的应用程序相比,在相同的 GPU 特性下,处理能力会更低,延迟会更高。
成本:由于上述原因,裸机 GPU 比虚拟 GPU 更昂贵。
可扩展性:虚拟 GPU 比裸机 GPU 更易于扩展,因为后者的扩展需要新的物理服务器。相比之下,新的 GPU 实例可以在几分钟甚至几秒钟内在云端配置完成。
对 GPU 硬件的控制:这对于某些配置和优化至关重要。例如,在训练包含十亿个参数的大规模深度学习模型时,完全控制意味着能够优化性能——这会对海量数据集的训练效率产生重大影响。
资源利用率:如果执行的任务不需要 GPU 的全部功能,则 GPU 虚拟化可能会导致利用率不足,从而造成资源浪费。
下表总结了每种方法的优点和缺点:
| 裸机 GPU | 虚拟 GPU | ||
| 直通 GPU | 虚拟GPU | ||
| 好处 | 专用 GPU 资源 高性能,满足苛刻的 AI 工作负载 |
成本较低 扩展性简单 适用于偶尔或可变的工作负载 |
成本最低 可扩展性简单 适用于偶尔或可变的工作负载 |
| 缺点 | 与虚拟 GPU 相比成本 较高 灵活性和可扩展性不如虚拟 GPU |
性能低下, 不适合要求苛刻的 AI 工作负载 |
性能最低, 不适合要求苛刻的 AI 工作负载 |
原创文章,作者:余初云,如若转载,请注明出处:https://blog.jidcy.com/yzj/gpu/367.html