ROCm für Windows Schulung
ROCm ist eine Open-Source-Plattform für die GPU-Programmierung, die AMD GPUs unterstützt und auch mit CUDA und OpenCL kompatibel ist. ROCm macht den Programmierer mit den Hardware-Details vertraut und gibt ihm die volle Kontrolle über den Parallelisierungsprozess. Dies erfordert jedoch auch ein gutes Verständnis der Gerätearchitektur, des Speichermodells, des Ausführungsmodells und der Optimierungstechniken.
ROCm for Windows ist eine neuere Entwicklung, die es den Benutzern ermöglicht, ROCm auf dem Windows-Betriebssystem zu installieren und zu verwenden, das für private und berufliche Zwecke weit verbreitet ist. Mit ROCm for Windows können die Benutzer die Leistung von AMD GPUs für verschiedene Anwendungen wie künstliche Intelligenz, Spiele, Grafik und wissenschaftliche Berechnungen nutzen.
Diese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Anfänger und fortgeschrittene Entwickler, die ROCm unter Windows installieren und verwenden möchten, um AMD GPUs zu programmieren und deren Parallelität auszunutzen.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Eine Entwicklungsumgebung einzurichten, die die ROCm-Plattform, einen AMD GPU und Visual Studio Code unter Windows enthält.
- Ein grundlegendes ROCm-Programm erstellen, das eine Vektoraddition auf dem GPU durchführt und die Ergebnisse aus dem GPU-Speicher abruft.
- Verwenden Sie die ROCm-API, um Geräteinformationen abzufragen, Gerätespeicher zuzuweisen und freizugeben, Daten zwischen Host und Gerät zu kopieren, Kernel zu starten und Threads zu synchronisieren.
- HIP-Sprache verwenden, um Kernel zu schreiben, die auf GPU ausgeführt werden und Daten manipulieren.
- Verwendung der in HIP integrierten Funktionen, Variablen und Bibliotheken, um allgemeine Aufgaben und Operationen auszuführen.
- Verwendung von ROCm- und HIP-Speicherbereichen, wie z. B. global, gemeinsam genutzt, konstant und lokal, um Datenübertragungen und Speicherzugriffe zu optimieren.
- Verwendung von ROCm- und HIP-Ausführungsmodellen zur Steuerung der Threads, Blöcke und Grids, die die Parallelität definieren.
- Debuggen und Testen von ROCm- und HIP-Programmen mit Werkzeugen wie dem ROCm Debugger und dem ROCm Profiler.
- Optimieren von ROCm- und HIP-Programmen mit Techniken wie Coalescing, Caching, Prefetching und Profiling.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxis.
- Praktische Umsetzung in einer Live-Laborumgebung.
Optionen zur Kursanpassung
- Wenn Sie eine maßgeschneiderte Schulung für diesen Kurs wünschen, nehmen Sie bitte Kontakt mit uns auf, um dies zu vereinbaren.
Schulungsübersicht
Einführung
- Was ist ROCm?
- Was ist HIP?
- ROCm vs. CUDA vs. OpenCL
- Überblick über die Funktionen und Architektur von ROCm und HIP
- ROCm for Windows vs ROCm für Linux
Installation
- Installation von ROCm unter Windows
- Verifizierung der Installation und Überprüfung der Gerätekompatibilität
- Aktualisieren oder Deinstallieren von ROCm unter Windows
- Fehlersuche bei allgemeinen Installationsproblemen
Erste Schritte
- Erstellen eines neuen ROCm-Projekts mit Visual Studio Code unter Windows
- Erkunden der Projektstruktur und der Dateien
- Kompilieren und Ausführen des Programms
- Anzeige der Ausgabe mit printf und fprintf
ROCm-API
- Verwendung von ROCm API im Host-Programm
- Abfrage von Geräteinformationen und -fähigkeiten
- Zuweisen und Freigeben von Gerätespeicher
- Kopieren von Daten zwischen Host und Gerät
- Starten von Kerneln und Synchronisieren von Threads
- Behandlung von Fehlern und Ausnahmen
HIP-Sprache
- Verwendung der HIP-Sprache im Geräteprogramm
- Schreiben von Kernels, die auf dem GPU ausgeführt werden und Daten manipulieren
- Verwendung von Datentypen, Qualifizierern, Operatoren und Ausdrücken
- Verwendung von eingebauten Funktionen, Variablen und Bibliotheken
ROCm und HIP-Speichermodell
- Verwendung verschiedener Speicherbereiche, z. B. global, gemeinsam genutzt, konstant und lokal
- Verwendung verschiedener Speicherobjekte, wie z.B. Zeiger, Arrays, Texturen und Oberflächen
- Verwendung verschiedener Speicherzugriffsmodi, wie z. B. Nur-Lesen, Nur-Schreiben, Lesen-Schreiben usw.
- Verwendung von Speicherkonsistenzmodellen und Synchronisationsmechanismen
ROCm und HIP-Ausführungsmodell
- Verwendung verschiedener Ausführungsmodelle, z. B. Threads, Blöcke und Grids
- Verwendung von Thread-Funktionen, z. B. hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x usw.
- Verwendung von Blockfunktionen wie __syncthreads, __threadfence_block, usw.
- Verwendung von Grid-Funktionen, wie hipGridDim_x, hipGridSync, kooperative Gruppen, usw.
Fehlersuche
- Fehlersuche in ROCm- und HIP-Programmen unter Windows
- Verwendung des Visual Studio Code-Debuggers zur Untersuchung von Variablen, Haltepunkten, Aufrufstapel usw.
- Verwendung des ROCm Debuggers zur Fehlersuche in ROCm- und HIP-Programmen auf AMD-Geräten
- Verwendung von ROCm Profiler zur Analyse von ROCm- und HIP-Programmen auf AMD-Geräten
Optimierung
- Optimieren von ROCm- und HIP-Programmen unter Windows
- Verwendung von Coalescing-Techniken zur Verbesserung des Speicherdurchsatzes
- Verwendung von Caching- und Prefetching-Techniken zur Reduzierung der Speicherlatenz
- Verwendung von Shared-Memory- und Local-Memory-Techniken zur Optimierung von Speicherzugriffen und Bandbreite
- Verwendung von Profiling und Profiling-Tools zur Messung und Verbesserung der Ausführungszeit und Ressourcennutzung
Zusammenfassung und nächster Schritt
Voraussetzungen
- Kenntnisse der Sprache C/C++ und paralleler Programmierkonzepte
- Grundkenntnisse der Computerarchitektur und der Speicherhierarchie
- Erfahrung mit Befehlszeilentools und Code-Editoren
- Vertrautheit mit dem Windows-Betriebssystem und PowerShell
Zielgruppe
- Entwickler, die lernen möchten, wie man ROCm unter Windows installiert und verwendet, um AMD GPUs zu programmieren und deren Parallelität auszunutzen
- Entwickler, die leistungsstarken und skalierbaren Code schreiben möchten, der auf verschiedenen AMD-Geräten ausgeführt werden kann
- Programmierer, die die Low-Level-Aspekte der GPU-Programmierung erforschen und die Leistung ihres Codes optimieren möchten
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
ROCm für Windows Schulung - Buchung
ROCm für Windows Schulung - Anfrage
ROCm für Windows - Beratungsanfrage
Kommende Kurse
Kombinierte Kurse
Entwicklung von KI-Anwendungen mit Huawei Ascend und CANN
21 StundenHuawei Ascend ist eine Familie von AI-Prozessoren, die für leistungsstarke Inferenz- und Trainingsvorgänge entwickelt wurden.
Diese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an fortgeschrittene KI-Ingenieure und Datenwissenschaftler, die lernen möchten, neuronale Netzmodelle unter Verwendung der Huawei Ascend-Plattform und des CANN-Toolkits zu entwickeln und zu optimieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Die CANN-Entwicklungsumgebung einzurichten und zu konfigurieren.
- KI-Anwendungen unter Verwendung von MindSpore und CloudMatrix-Arbeitsabläufen zu entwickeln.
- Die Leistung auf Ascend NPUs durch benutzerdefinierte Operatoren und Tiling zu optimieren.
- Modelle in Edge- oder Cloudumgebungen bereitzustellen.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Praktische Nutzung von Huawei Ascend und dem CANN-Toolkit in Beispielanwendungen.
- Geleitete Übungen, die sich auf das Erstellen, Trainieren und Bereitstellen von Modellen konzentrieren.
Kursanpassungsoptionen
- Um eine angepasste Schulung basierend auf Ihrer Infrastruktur oder Datensätzen anzufordern, kontaktieren Sie uns bitte zur Vereinbarung.
Deploying AI Models mit CANN und Ascend AI-Prozessoren
14 StundenCANN (Compute Architecture for Neural Networks) ist Huaweis AI-Rechenstack für die Bereitstellung und Optimierung von AI-Modellen auf Ascend-AI-Prozessoren.
Diese von einem Trainer geführte Live-Ausbildung (online oder vor Ort) richtet sich an mittelcalibrierte AI-Entwickler und Ingenieure, die effizient ausgebildete AI-Modelle mit dem CANN-Toolkit und Tools wie MindSpore, TensorFlow oder PyTorch auf Huawei Ascend-Hardware bereitstellen möchten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Die Architektur von CANN und ihre Rolle im AI-Bereitstellungspipeline zu verstehen.
- Modelle aus beliebten Frameworks in Ascend-kompatible Formate umzuwandeln und anzupassen.
- Tools wie ATC, OM-Modellkonvertierung und MindSpore für Edge- und Cloud-Inferenz zu verwenden.
- Bereitstellungsprobleme zu diagnostizieren und die Leistung auf Ascend-Hardware zu optimieren.
Format des Kurses
- Interaktive Vorlesung und Demonstration.
- Praxisarbeit mit CANN-Tools und Ascend-Simulatoren oder Geräten.
- Praktische Bereitstellungsszenarien auf der Basis realer AI-Modelle.
Optionen für angepasste Schulungen
- Wenn Sie eine angepasste Schulung zu diesem Kurs anfordern möchten, kontaktieren Sie uns bitte zur Absprache.
Künstliche Intelligenz-Unterstützung und Deployment mit CloudMatrix
21 StundenCloudMatrix ist Huaweis einheitliche AI-Entwicklung und -Bereitstellungsplattform, die skalierbare Produktionsqualität-Inferenzpipelines unterstützt.
Dieser von einem Trainer geleitete Live-Kurs (online oder vor Ort) richtet sich an Anfänger und Fortgeschrittene im Bereich KI, die Modelle mithilfe der CloudMatrix-Plattform mit CANN und MindSpore-Integration bereitstellen und überwachen möchten.
Am Ende des Trainings werden die Teilnehmer in der Lage sein:
- CloudMatrix für Modelpackaging, Bereitstellung und Dienstleistung zu verwenden.
- Modelle für Ascend-Chips umwandeln und optimieren.
- Pipelines für Echtzeit- und Batch-Inferenz-Aufgaben einrichten.
- Bereitstellungen überwachen und die Leistung in Produktionsumgebungen optimieren.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Praxisorientierte Nutzung von CloudMatrix mit realen Bereitstellungszenarien.
- Geleitete Übungen zum Thema Konvertierung, Optimierung und Skalierung.
Anpassungsoptionen für den Kurs
- Für eine angepasste Schulung auf Basis Ihrer AI-Infrastruktur oder Cloud-Umgebung kontaktieren Sie uns, um dies zu vereinbaren.
GPU Programming auf Biren AI Accelerators
21 StundenBiren AI-Acceleratoren sind Hochleistungs-GPU-Systeme, die für KI- und HPC-Anwendungen entwickelt wurden und Unterstützung für umfangreiche Trainings- und Inferenzprozesse bieten.
Dieser von einem Trainer geleitete Live-Kurs (online oder vor Ort) richtet sich an mittel bis fortgeschrittene Entwickler, die Programme mit Birens proprietärem GPU-Stack programmieren und optimieren möchten. Vergleiche zur CUDA-basierten Umgebung werden praktisch dargestellt.
Am Ende dieses Trainings können Teilnehmer Folgendes:
- Die Architektur und das Speichersystem von Biren GPU verstehen.
- Entwicklungsumgebung einrichten und Birens Programmiermodell verwenden.
- CUDA-ähnlichen Code für Biren-Plattformen übersetzen und optimieren.
- Leistungsanpassungstechniken anwenden und Fehlerbehebung durchführen.
Format des Kurses
- Interaktive Vorlesungen und Diskussionen.
- Praktische Nutzung der Biren SDK in Beispiel-GPU-Workloads.
- Geleitete Übungen zum Portieren und Anpassen von Leistungsparametern.
Anpassungsoptionen für den Kurs
- Für eine auf Ihre Anwendungsumgebung oder Integrationsbedürfnisse zugeschnittene Ausbildung wenden Sie sich bitte an uns, um die Anpassung zu vereinbaren.
Cambricon MLU Development with BANGPy and Neuware
21 StundenCambricon MLUs (Machine Learning Units) sind spezialisierte AI-Chips, die für Inferenz und Training in Edge- und Datenzentren-Szenarien optimiert wurden.
Dieses von einem Trainer geleitete Live-Seminar (online oder vor Ort) richtet sich an fortgeschrittene Entwickler, die Modelle mit dem BANGPy-Framework und der Neuware SDK auf Cambricon MLU-Hardware erstellen und bereitstellen möchten.
Am Ende des Trainings werden die Teilnehmer in der Lage sein:
- Die Entwicklungsumgebungen von BANGPy und Neuware einzurichten und zu konfigurieren.
- Python- und C++-basierte Modelle für Cambricon MLUs zu entwickeln und zu optimieren.
- Modelle auf Edge- und Datenzentren-Geräten bereitzustellen, die den Neuware Runtime ausführen.
- ML-Arbeitsabläufe mit MLU-spezifischen Beschleunigungsmerkmalen zu integrieren.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Praxisorientierte Nutzung von BANGPy und Neuware zur Entwicklung und Bereitstellung.
- Führung durch Übungen, die sich auf Optimierung, Integration und Testen konzentrieren.
Anpassungsoptionen des Kurses
- Um eine an Ihren Cambricon-Gerätemodell oder Anwendungsfall angepasste Ausbildung zu beantragen, kontaktieren Sie uns bitte zur Absprache.
Einführung in CANN für AI-Framework-Entwickler
7 StundenCANN (Compute Architecture for Neural Networks) ist Huaweis AI-Computing-Toolkast, der verwendet wird, um AI-Modelle auf Ascend-AI-Prozessoren zu kompilieren, zu optimieren und bereitzustellen.
Dieser von einem Trainer geleitete Live-Kurs (Online oder vor Ort) richtet sich an Anfänger im Bereich AI-Entwicklung, die verstehen möchten, wie CANN in den Modellzyklus von der Ausbildung bis zur Bereitstellung einbezogen wird und wie es mit Frameworks wie MindSpore, TensorFlow und PyTorch zusammenarbeitet.
Am Ende des Kurses werden die Teilnehmer in der Lage sein:
- Den Zweck und die Architektur des CANN-Toolkits zu verstehen.
- Eine Entwicklungsumgebung mit CANN und MindSpore einzurichten.
- Ein einfaches AI-Modell auf Ascend-Hardware umzusetzen und bereitzustellen.
- Grundlegendes Wissen für zukünftige Optimierungs- oder Integrationsprojekte mit CANN zu erlangen.
Format des Kurses
- Interaktive Vorlesungen und Diskussionen.
- Praxisübungen mit einfacher Modellbereitstellung.
- Schritt-für-Schritt-Anleitung durch die CANN-Toolkette und Integrationspunkte.
Anpassungsoptionen des Kurses
- Um eine angepasste Ausbildung für diesen Kurs zu beantragen, kontaktieren Sie uns bitte zur Anmeldung.
CANN für Edge AI Deployment
14 StundenDie Toolkit Ascend CANN von Huawei ermöglicht eine leistungsfähige AI-Schließung auf Edge-Geräten wie dem Ascend 310. CANN bietet wesentliche Werkzeuge für das Kompilieren, Optimieren und Bereitstellen von Modellen in Umgebungen mit begrenzter Rechenleistung und Speicher.
Diese lehrer-gesteuerte Live-Ausbildung (online oder vor Ort) richtet sich an fortgeschrittene AI-Entwickler und -Integratoren, die Modelle auf Ascend Edge-Geräten mit der CANN Werkzeugkette bereitstellen und optimieren möchten.
Am Ende dieser Ausbildung werden die Teilnehmer in der Lage sein:
- AI-Modelle für den Ascend 310 mithilfe von CANN-Werkzeugen vorzubereiten und umzuwandeln.
- Leichtgewichtige Inferenzpipelines mit MindSpore Lite und AscendCL zu erstellen.
- Die Modellleistung für Umgebungen mit begrenzter Rechenleistung und Speicher zu optimieren.
- AI-Anwendungen in realen Edge-Szenarien bereitzustellen und zu überwachen.
Format der Ausbildung
- Interaktive Vorlesung und Demonstration.
- Praxisarbeit am Modell und in Szenarien für Edge-Geräte.
- Live-Beispiele der Bereitstellung auf virtuellem oder physischem Edge-Hardware.
Anpassungsoptionen der Ausbildung
- Um eine angepasste Ausbildung für diesen Kurs anzufordern, kontaktieren Sie uns bitte zur Absprache.
Verständnis des AI-Bereichs von Huawei: Von CANN bis MindSpore
14 StundenHuawei's AI-Stack — vom unteren SDK-CANN bis zum höherstufigen MindSpore-Framework — bietet eine eng integrierte Entwicklungsumgebung für die Bereitstellung von KI, optimiert für Ascend-Hardware.
Diese instructor-led Live-Ausbildung (online oder vor Ort) richtet sich an Anfänger und Fortgeschrittene in technischen Berufen, die verstehen möchten, wie die Komponenten CANN und MindSpore zusammenarbeiten, um das KI-Lebenszyklus-Management und Infrastrukturentscheidungen zu unterstützen.
Am Ende der Ausbildung können die Teilnehmer Folgendes:
- Die aufgeschichtete Architektur von Huaweis AI-Berechnungsstack verstehen.
- Erkennen, wie CANN das Modelloptimierung und die Hardwarebereitstellung unterstützt.
- Den MindSpore-Framework und -Toolchain in Bezug auf Branchenalternativen bewerten.
- Positionieren von Huaweis AI-Stack innerhalb von Unternehmensumgebungen oder Cloud/on-prem-Umgebungen.
Format der Ausbildung
- Interaktive Vorlesung und Diskussion.
- Live-Demos des Systems und fallbasierte Durchgänge.
- Optional geführte Workshops zum Modellfluss von MindSpore zu CANN.
Anpassungsoptionen der Ausbildung
- Bei Interesse an einer angepassten Trainingseinheit für diesen Kurs, kontaktieren Sie uns bitte zur Anordnung.
Optimierung der Leistung von Neuronalen Netzen mit CANN SDK
14 StundenCANN SDK (Compute Architecture für Neural Networks) ist die AI-Berechnungsplattform von Huawei, mit der Entwickler die Leistung von eingesetzten neuronalen Netzen auf Ascend AI-Prozessoren feinjustieren und optimieren können.
Diese in Live-Format durchgeführte Schulung (online oder vor Ort) richtet sich an fortgeschrittene AI-Entwickler und Systemingenieure, die die Leistungsfähigkeit der Inferenz mit den erweiterten Werkzeugen von CANN optimieren möchten. Dies beinhaltet das Graph Engine, TIK sowie die Entwicklung benutzerdefinierter Operatoren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- CANN's Laufzeitarchitektur und Leistungszyklus zu verstehen.
- Profilierwerkzeuge und Graph Engine zur Analyse und Optimierung der Performance nutzen.
- Benutzerdefinierte Operatoren mit TIK und TVM erstellen und optimieren.
- Speichergrenzen auflösen und die Modelldurchsatzfähigkeit verbessern.
Format der Schulung
- Interaktiver Vortrag und Diskussion.
- Hände-direkt-Händefür-Schulungen mit realzeitiger Profilingfunktion und Anpassung von Operatoren.
- Optimierungsaufgaben unter Verwendung von Randfall-Deploymentbeispielen.
Anpassungsmöglichkeiten der Schulung
- Für eine maßgeschneiderte Schulung für diesen Kurs wenden Sie sich bitte an uns, um die Anpassung zu vereinbaren.
CANN SDK für Computer Vision und NLP-Pipelines
14 StundenDas CANN SDK (Compute Architecture for Neural Networks) bietet leistungsstarke Bereitstellungs- und Optimierungstools für Echtzeit-AI-Anwendungen in der Computer Vision und NLP, insbesondere auf Huawei Ascend-Hardware.
Diese von einem Dozenten geführte Live-Schulung (online oder vor Ort) richtet sich an fortgeschrittene KI-Praktiker, die Vision- und Sprachmodelle mit dem CANN SDK für Produktionsfallen bauen, bereitstellen und optimieren möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- CV- und NLP-Modelle mit CANN und AscendCL bereitzustellen und zu optimieren.
- Die CANN-Werkzeuge verwenden, um Modelle zu konvertieren und sie in Live-Pipelines zu integrieren.
- Die Inferenzleistung für Aufgaben wie Detektion, Klassifizierung und Sentimentanalyse zu optimieren.
- Echtzeit-CV/NLP-Pipelines für Edge- oder cloudbasierte Bereitstellungsszenarien aufzubauen.
Kursformat
- Interaktive Vorlesung und Demonstration.
- Praktische Übungen mit Modellbereitstellung und Leistungsprofiling.
- Live-Pipelinedesign unter Verwendung realer CV- und NLP-Anwendungsfälle.
Kursanpassungsoptionen
- Für eine angepasste Schulung zu diesem Kurs kontaktieren Sie uns bitte, um eine Anpassung vorzunehmen.
Erstellen benutzerdefinierter AI-Operatoren mit CANN TIK und TVM
14 StundenCANN TIK (Tensor Instruction Kernel) und Apache TVM ermöglichen die erweiterte Optimierung und Anpassung von AI-Modelloperatoren für Huawei Ascend Hardware.
Dieses von einem Trainer durchgeführte Live-Seminar (online oder vor Ort) richtet sich an fortgeschrittene Systementwickler, die Custom-Operatoren für AI-Modelle mithilfe des TIK Programmiermodells und der TVM-Kompilerintegration von CANN erstellen, bereitstellen und einstellen möchten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Custom-AI-Operatoren mit dem TIK DSL für Ascend-Prozessoren zu schreiben und zu testen.
- Custom-Ops in den CANN Runtime und die Ausführungsgraphik zu integrieren.
- TVM zur Operator-Scheduling, Auto-Tuning und Benchmarking zu verwenden.
- Instruktionsebene Leistungsprobleme von Custom-Berechnungsmustern zu debuggen und zu optimieren.
Format des Kurses
- Interaktive Vorlesungen und Demonstrations.
- Praxisorientiertes Coden von Operatoren mit TIK- und TVM-Pipelines.
- Testen und Einstellen auf Ascend-Hardware oder Simulatoren.
Anpassungsoptionen des Kurses
- Für eine angepasste Ausbildung zu diesem Kurs wenden Sie sich bitte an uns, um die Vorstellung zu vereinbaren.
Migration von CUDA-Anwendungen zu chinesischen GPU-Architekturen
21 StundenChinesische GPU-Architekturen wie Huawei Ascend, Biren und Cambricon MLUs bieten CUDA-Alternativen an, die auf lokale AI- und HPC-Märkte zugeschnitten sind.
Dieses von einem Dozenten durchgeführte Live-Seminar (Online oder Vorort) richtet sich an erfahrene GPU-Programmierer und Infrastruktur-Spezialisten, die bestehende CUDA-Anwendungen auf chinesische Hardwareplattformen migrieren und optimieren möchten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Die Kompatibilität bestehender CUDA-Arbeitssätze mit alternativen chinesischen Chips zu bewerten.
- CUDA-Codebasen in Umgebungen von Huawei CANN, Biren SDK und Cambricon BANGPy umzustellen.
- Leistung zu vergleichen und Optimierungspunkte über verschiedene Plattformen hinweg zu identifizieren.
- Praktische Herausforderungen im Bereich Cross-Architektur-Unterstützung und -Deployment anzugehen.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Hände-direkt-in den Code-Übersetzungslabors mit Leistungsvergleich.
- Geleitete Übungen, die auf Multi-GPU-Adaptierungsstrategien fokussiert sind.
Anpassungsoptionen für den Kurs
- Zum Anfordern einer angepassten Ausbildung an Ihren Plattformbedarf oder CUDA-Projekt, kontaktieren Sie uns bitte zur Arrangement.
Performance Optimization on Ascend, Biren, and Cambricon
21 StundenAscend, Biren und Cambricon sind führende AI-Hardware-Plattformen in China, die jeweils einzigartige Tools zur Beschleunigung und Profiling für Produktions-AI-Aufgaben bieten.
Diese von einem Trainer geleitete Live-Ausbildung (online oder vor Ort) richtet sich an fortschrittliche AI-Infrastruktur- und Leistungstechniker, die Workflow zum Modell-Inferenz und -Training über verschiedene chinesische AI-Chip-Plattformen optimieren möchten.
Am Ende dieser Ausbildung werden Teilnehmer in der Lage sein:
- Modelle auf den Plattformen Ascend, Biren und Cambricon zu benchmarken.
- Systembottlenecks und ineffiziente Speicher-/Rechenprozesse zu identifizieren.
- Grafenebene-, Kernel-Ebene- und Operator-Ebene-Optimierungen anzuwenden.
- Bereitstellungs-Pipelines zu justieren, um Durchsatz und Latenz zu verbessern.
Format der Veranstaltung
- Interaktiver Vortrag und Diskussion.
- Hände-direkt Einsatz von Profiling- und Optimierungstools auf jeder Plattform.
- Führung durch Übungen, die sich auf praktische Justierungszenarien konzentrieren.
Möglichkeiten der Anpassung des Kurses
- Um eine angepasste Ausbildung für diesen Kurs basierend auf Ihrer Leistungsumgebung oder Modelltyp anzufordern, kontaktieren Sie uns bitte zur Absprache.