Radeon Open Compute «ROCm» Stack v3.1 est sorti avec RAS pour Vega 7nm, prise en charge de SLURM pour une meilleure gestion des ressources, mais Navi toujours absent

Matériel / Radeon Open Compute «ROCm» Stack v3.1 est sorti avec RAS pour Vega 7nm, prise en charge de SLURM pour une meilleure gestion des ressources, mais Navi toujours absent 2 minutes de lecture

AMD Radeon



La nouvelle version de Radeon Open Compute ou «ROCm» stack est maintenant disponible disponible à télécharger. La Radeon Open Compute v3.1 apporte de nombreuses fonctionnalités, mais étrangement, la prise en charge d'AMD Navi ainsi que de GFX10 fait toujours défaut.

ROCm, la plate-forme universelle la plus largement acceptée pour le calcul accéléré par GPU, est désormais en version 3.1. La dernière mise à jour de la plate-forme modulaire qui permet aux fournisseurs de matériel de créer des pilotes prenant en charge le cadre ROCm comprend certaines fonctionnalités très attendues telles que la prise en charge RAS pour Vega 7 nm et la prise en charge SLURM pour les GPU AMD. Cependant, pour des raisons encore inconnues, le ROCm ne prend toujours pas complètement en charge l'architecture AMD Navi de nouvelle génération.



Nouveautés de Radeon ROCm v3.1:

Le changement le plus important et le plus évident dans la nouvelle installation de Radeon ROCm v3.1 est dans la structure du répertoire d'installation de ROCm. Une nouvelle installation de la boîte à outils ROCm installe les packages dans le / opt / rocm- dossier. Auparavant, les packages du toolkit ROCm étaient installés dans le / opt / rocm dossier.



La nouvelle version de ROCm a amélioré la prise en charge de la fiabilité, de l'accessibilité et de la facilité de maintenance (RAS) pour les GPU Vega 7 nm. Ce travail Vega 7nm est vraisemblablement sous le microscope encore pour le «Arcturus» à base de Vega accélérateur de calcul à venir cette année. Le support comprend:



  • UMC RAS ​​- HBM ECC (injection d'erreur incorrigible), retrait de page, récupération RAS via la réinitialisation GPU (BACO)
  • GFX RAS - GFX, MMHUB ECC (injection d'erreur non corrigible), récupération RAS via la réinitialisation du GPU (BACO)
  • PCIE RAS - PCIE_BIF ECC (injection d'erreur non corrigible), récupération RAS via la réinitialisation du GPU (BACO)

Radeon ROCm v3.1 prend également en charge SLURM pour les GPU AMD. SLURM ou Simple Linux Utility for Resource Management est l'un des systèmes de gestion de cluster et de planification de travaux les plus appréciés et facilement utilisés pour les clusters Linux. SLURM est préféré car il est open-source, tolérant aux pannes et hautement évolutif.

Ce système peut désormais bien interagir avec les GPU AMD. La dernière version 20.02.0 de SLURM inclut des plugins AMD qui permettent à SLURM de détecter et de configurer automatiquement les GPU AMD. Il collecte et rapporte également la consommation d'énergie des puces graphiques. La prise en charge de SLURM est un ajout utile étant donné le nombre croissant de déploiements de super-calcul utilisant des GPU Radeon et d'autres clusters de GPU AMD plus grands.

Malgré l'inclusion de plusieurs fonctionnalités, il n'y a toujours aucun signe de prise en charge du GFX10 / Navi dans ROCm. le Page GitHub pour ROCm a été mis à jour pour refléter toutes les modifications, les notes d'installation et les problèmes connus.



Mots clés amd