Migrating CUDA Applications to Chinese GPU Architectures Training Course
Chinesische GPU-Architekturen wie Huawei Ascend, Biren und Cambricon MLUs bieten CUDA-Alternativen an, die auf lokale AI- und HPC-Märkte zugeschnitten sind.
Dieses von einem Dozenten durchgeführte Live-Seminar (Online oder Vorort) richtet sich an erfahrene GPU-Programmierer und Infrastruktur-Spezialisten, die bestehende CUDA-Anwendungen auf chinesische Hardwareplattformen migrieren und optimieren möchten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Die Kompatibilität bestehender CUDA-Arbeitssätze mit alternativen chinesischen Chips zu bewerten.
- CUDA-Codebasen in Umgebungen von Huawei CANN, Biren SDK und Cambricon BANGPy umzustellen.
- Leistung zu vergleichen und Optimierungspunkte über verschiedene Plattformen hinweg zu identifizieren.
- Praktische Herausforderungen im Bereich Cross-Architektur-Unterstützung und -Deployment anzugehen.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Hände-direkt-in den Code-Übersetzungslabors mit Leistungsvergleich.
- Geleitete Übungen, die auf Multi-GPU-Adaptierungsstrategien fokussiert sind.
Anpassungsoptionen für den Kurs
- Zum Anfordern einer angepassten Ausbildung an Ihren Plattformbedarf oder CUDA-Projekt, kontaktieren Sie uns bitte zur Arrangement.
Schulungsübersicht
Überblick über das chinesische AI-GPU-Ökosystem
- Vergleich von Huawei Ascend, Biren, Cambricon MLU
- CUDA vs CANN, Biren SDK und BANGPy-Modelle
- Industrietrends und Anbioter Ökosysteme
Bereitschaft für die Migration
- Bewertung der CUDA-Codebasis
- Aufzeigen von Zielflächen und SDK-Versionen
- Installierung des Werkzeugsatzes und Umgebungssetup
Kodetranslationsmethoden
- Porting von CUDA-Speicherknotenzugriff und Kernellogik
- Zuordnung der Berechnungsgitter- und Threadmodelle
- Automatisierte vs. manuelle Übersetzungsoptionen
Plattform-spezifische Implementierungen
- Nutzung von Huawei CANN-Operatoren und benutzerdefinierten Kernen
- Biren SDK-Umwandlungspipeline
- Neubau von Modellen mit BANGPy (Cambricon)
Kreuzplattentests und -optimierungen
- Profilieren der Ausführung auf jeder Zielplattform
- Speichereinstellungen und Vergleiche zur parallelen Ausführung
- Aufzeichnung und Iteration des Leistungsverhaltens
Verwaltung gemischter GPU-Umgebungen
- Hybride Bereitstellungen mit mehreren Architekturen
- Rücksetzstrategien und Geräteerkennung
- Schichten der Abstraktion zur Codewartbarkeit
Fallstudien und Best Practices
- Porting von Sehen/NLP-Modellen auf Ascend oder Cambricon
- Erweiterung von Inferenzpipelines in Biren-Clustern
- Umgang mit Versionsunterschieden und API-Lücken
Zusammenfassung und weitere Schritte
Voraussetzungen
- Erfahrung im Programmieren mit CUDA oder GPU-basierten Anwendungen
- Verständnis der GPU Speichersysteme und Compute-Kerne
- Bekanntschaft mit Workflows für die Bereitstellung oder Beschleunigung von AI-Modellen
Zielgruppe
- GPU-Programmierer
- Systemarchitekten
- Migrationsfachkräfte
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Migrating CUDA Applications to Chinese GPU Architectures Training Course - Booking
Migrating CUDA Applications to Chinese GPU Architectures Training Course - Enquiry
Migrating CUDA Applications to Chinese GPU Architectures - Beratungsanfrage
Beratungsanfrage
Kommende Kurse
Kombinierte Kurse
Developing AI Applications with Huawei Ascend and CANN
21 StundenHuawei Ascend ist eine Familie von KI-Prozessoren, die für Hochleistungs-Entscheidungen und -Training konzipiert wurden.
Dieser von einem Trainer geleitete Live-Kurs (online oder vor Ort) richtet sich an fortgeschrittene KI-Ingenieure und Datenwissenschaftler, die Modelle der neuronalen Netzwerke mit Hilfe des Huawei Ascend-Platforms und dem CANN-Toolkit entwickeln und optimieren möchten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Die Entwicklungsumgebung von CANN einzurichten und zu konfigurieren.
- KI-Anwendungen mit MindSpore und CloudMatrix-Workflows zu entwickeln.
- Mit benutzerdefinierten Operatoren und Tiling die Leistung auf Ascend NPUs zu optimieren.
- Modelle in Edge- oder Cloud-Umgebungen bereitzustellen.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Händische Nutzung von Huawei Ascend und dem CANN-Toolkit in Beispielanwendungen.
- Führung durch Übungen, die sich auf das Modellieren, Trainieren und Bereitstellen konzentrieren.
Anpassungsoptionen des Kurses
- Um einen an Ihren Infrastruktur oder Datensätzen angepassten Training anzufordern, kontaktieren Sie uns bitte für die Anmeldung.
Deploying AI Models with CANN and Ascend AI Processors
14 StundenCANN (Compute Architecture for Neural Networks) is Huawei’s AI compute stack for deploying and optimizing AI models on Ascend AI processors.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI developers and engineers who wish to deploy trained AI models efficiently to Huawei Ascend hardware using the CANN toolkit and tools such as MindSpore, TensorFlow, or PyTorch.
By the end of this training, participants will be able to:
- Understand the CANN architecture and its role in the AI deployment pipeline.
- Convert and adapt models from popular frameworks to Ascend-compatible formats.
- Use tools like ATC, OM model conversion, and MindSpore for edge and cloud inference.
- Diagnose deployment issues and optimize performance on Ascend hardware.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on lab work using CANN tools and Ascend simulators or devices.
- Practical deployment scenarios based on real-world AI models.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
AI Inference and Deployment with CloudMatrix
21 StundenCloudMatrix ist Huaweis einheitliche Plattform für die Entwicklung und Bereitstellung von KI, die skalierbare, produktionsfähige Inferenzpipelines unterstützt.
Dieses von einem Trainer geleitete Live-Seminar (online oder vor Ort) richtet sich an Anfänger- bis Mittelstufe-KI-Profi, die Modelle mit der CloudMatrix-Plattform einschließlich Integration von CANN und MindSpore bereitstellen und überwachen möchten.
Am Ende des Trainings werden die Teilnehmer in der Lage sein:
- CloudMatrix für das Modelpackaging, die Bereitstellung und den Dienstleistungseinsatz zu verwenden.
- Modelle für Ascend-Chipsätze umzuwandeln und zu optimieren.
- Pipelines für Echtzeit- und Batch-Inferenz-Aufgaben einzurichten.
- Bereitstellungen überwachen und die Leistung in Produktionsumgebungen einstellen.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Händische Nutzung von CloudMatrix mit realen Bereitstellungszenarien.
- Führung durch Übungen, die sich auf Umwandlung, Optimierung und Skalierung konzentrieren.
Optionen zur Anpassung des Kurses
- Um eine angepasste Ausbildung zu diesem Kurs basierend auf Ihrer AI-Infrastruktur oder Cloud-Umgebung zu beantragen, kontaktieren Sie uns bitte für die Anmeldung.
GPU Programming on Biren AI Accelerators
21 StundenBiren AI Accelerators sind High-Performance-GPU-Systeme, die für AI und HPC-Aufgaben konzipiert wurden und Unterstützung für großskalige Trainings- und Inferenzprozesse bieten.
Dieses von einem Trainer geleitete Live-Seminar (online oder vor Ort) richtet sich an fortgeschrittene Entwickler, die Anwendungen mit Birens proprietärem GPU-Stack programmieren und optimieren möchten. Dabei werden praktische Vergleiche zu CUDA-basierten Umgebungen gezogen.
Am Ende des Trainings können die Teilnehmer folgendes:
- Biren-GPU-Architektur und -Speicherkonzepte verstehen.
- Die Entwicklungsumgebung einrichten und Birens Programmiermodell nutzen.
- CUDA-stiligen Code für Biren-Plattformen übersetzen und optimieren.
- Leistungsoptimierungstechniken und Debugging anwenden.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Händische Nutzung der Biren SDK in Beispiel-GPU-Arbeitslasten.
- Führung durch Übungen, die sich auf Portierung und Leistungsoptimierung konzentrieren.
Optionen zur Anpassung des Kurses
- Um eine angepasste Ausbildung für diesen Kurs basierend auf Ihren Anwendungsschichten oder Integrationsbedürfnissen zu beantragen, kontaktieren Sie uns bitte.
Cambricon MLU Development with BANGPy and Neuware
21 StundenCambricon MLUs (Machine Learning Units) sind spezialisierte AI-Chips, die für Inferenz und Training in Edge- und Datenzentren-Szenarien optimiert wurden.
Dieses von einem Trainer geleitete Live-Seminar (online oder vor Ort) richtet sich an fortgeschrittene Entwickler, die Modelle mit dem BANGPy-Framework und der Neuware SDK auf Cambricon MLU-Hardware erstellen und bereitstellen möchten.
Am Ende des Trainings werden die Teilnehmer in der Lage sein:
- Die Entwicklungsumgebungen von BANGPy und Neuware einzurichten und zu konfigurieren.
- Python- und C++-basierte Modelle für Cambricon MLUs zu entwickeln und zu optimieren.
- Modelle auf Edge- und Datenzentren-Geräten bereitzustellen, die den Neuware Runtime ausführen.
- ML-Arbeitsabläufe mit MLU-spezifischen Beschleunigungsmerkmalen zu integrieren.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Praxisorientierte Nutzung von BANGPy und Neuware zur Entwicklung und Bereitstellung.
- Führung durch Übungen, die sich auf Optimierung, Integration und Testen konzentrieren.
Anpassungsoptionen des Kurses
- Um eine an Ihren Cambricon-Gerätemodell oder Anwendungsfall angepasste Ausbildung zu beantragen, kontaktieren Sie uns bitte zur Absprache.
Introduction to CANN for AI Framework Developers
7 StundenCANN (Compute Architecture for Neural Networks) is Huawei’s AI computing toolkit used to compile, optimize, and deploy AI models on Ascend AI processors.
This instructor-led, live training (online or onsite) is aimed at beginner-level AI developers who wish to understand how CANN fits into the model lifecycle from training to deployment, and how it works with frameworks like MindSpore, TensorFlow, and PyTorch.
By the end of this training, participants will be able to:
- Understand the purpose and architecture of the CANN toolkit.
- Set up a development environment with CANN and MindSpore.
- Convert and deploy a simple AI model to Ascend hardware.
- Gain foundational knowledge for future CANN optimization or integration projects.
Format of the Course
- Interactive lecture and discussion.
- Hands-on labs with simple model deployment.
- Step-by-step walkthrough of the CANN toolchain and integration points.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
CANN for Edge AI Deployment
14 StundenHuawei's Ascend CANN toolkit enables powerful AI inference on edge devices such as the Ascend 310. CANN provides essential tools for compiling, optimizing, and deploying models where compute and memory are constrained.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI developers and integrators who wish to deploy and optimize models on Ascend edge devices using the CANN toolchain.
By the end of this training, participants will be able to:
- Prepare and convert AI models for Ascend 310 using CANN tools.
- Build lightweight inference pipelines using MindSpore Lite and AscendCL.
- Optimize model performance for limited compute and memory environments.
- Deploy and monitor AI applications in real-world edge use cases.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on lab work with edge-specific models and scenarios.
- Live deployment examples on virtual or physical edge hardware.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Understanding Huawei’s AI Compute Stack: From CANN to MindSpore
14 StundenHuawei’s AI stack — from the low-level CANN SDK to the high-level MindSpore framework — offers a tightly integrated AI development and deployment environment optimized for Ascend hardware.
This instructor-led, live training (online or onsite) is aimed at beginner-level to intermediate-level technical professionals who wish to understand how the CANN and MindSpore components work together to support AI lifecycle management and infrastructure decisions.
By the end of this training, participants will be able to:
- Understand the layered architecture of Huawei’s AI compute stack.
- Identify how CANN supports model optimization and hardware-level deployment.
- Evaluate the MindSpore framework and toolchain in relation to industry alternatives.
- Position Huawei's AI stack within enterprise or cloud/on-prem environments.
Format of the Course
- Interactive lecture and discussion.
- Live system demos and case-based walkthroughs.
- Optional guided labs on model flow from MindSpore to CANN.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Optimizing Neural Network Performance with CANN SDK
14 StundenCANN SDK (Compute Architecture for Neural Networks) is Huawei’s AI compute foundation that allows developers to fine-tune and optimize the performance of deployed neural networks on Ascend AI processors.
This instructor-led, live training (online or onsite) is aimed at advanced-level AI developers and system engineers who wish to optimize inference performance using CANN’s advanced toolset, including the Graph Engine, TIK, and custom operator development.
By the end of this training, participants will be able to:
- Understand CANN's runtime architecture and performance lifecycle.
- Use profiling tools and Graph Engine for performance analysis and optimization.
- Create and optimize custom operators using TIK and TVM.
- Resolve memory bottlenecks and improve model throughput.
Format of the Course
- Interactive lecture and discussion.
- Hands-on labs with real-time profiling and operator tuning.
- Optimization exercises using edge-case deployment examples.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
CANN SDK for Computer Vision and NLP Pipelines
14 StundenThe CANN SDK (Compute Architecture for Neural Networks) provides powerful deployment and optimization tools for real-time AI applications in computer vision and NLP, especially on Huawei Ascend hardware.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI practitioners who wish to build, deploy, and optimize vision and language models using the CANN SDK for production use cases.
By the end of this training, participants will be able to:
- Deploy and optimize CV and NLP models using CANN and AscendCL.
- Use CANN tools to convert models and integrate them into live pipelines.
- Optimize inference performance for tasks like detection, classification, and sentiment analysis.
- Build real-time CV/NLP pipelines for edge or cloud-based deployment scenarios.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on lab with model deployment and performance profiling.
- Live pipeline design using real CV and NLP use cases.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Building Custom AI Operators with CANN TIK and TVM
14 StundenCANN TIK (Tensor Instruction Kernel) and Apache TVM enable advanced optimization and customization of AI model operators for Huawei Ascend hardware.
This instructor-led, live training (online or onsite) is aimed at advanced-level system developers who wish to build, deploy, and tune custom operators for AI models using CANN’s TIK programming model and TVM compiler integration.
By the end of this training, participants will be able to:
- Write and test custom AI operators using the TIK DSL for Ascend processors.
- Integrate custom ops into the CANN runtime and execution graph.
- Use TVM for operator scheduling, auto-tuning, and benchmarking.
- Debug and optimize instruction-level performance for custom computation patterns.
Format of the Course
- Interactive lecture and demonstration.
- Hands-on coding of operators using TIK and TVM pipelines.
- Testing and tuning on Ascend hardware or simulators.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Performance Optimization on Ascend, Biren, and Cambricon
21 StundenAscend, Biren und Cambricon sind führende AI-Hardware-Plattformen in China, die jeweils einzigartige Tools zur Beschleunigung und Profiling für Produktions-AI-Aufgaben bieten.
Diese von einem Trainer geleitete Live-Ausbildung (online oder vor Ort) richtet sich an fortschrittliche AI-Infrastruktur- und Leistungstechniker, die Workflow zum Modell-Inferenz und -Training über verschiedene chinesische AI-Chip-Plattformen optimieren möchten.
Am Ende dieser Ausbildung werden Teilnehmer in der Lage sein:
- Modelle auf den Plattformen Ascend, Biren und Cambricon zu benchmarken.
- Systembottlenecks und ineffiziente Speicher-/Rechenprozesse zu identifizieren.
- Grafenebene-, Kernel-Ebene- und Operator-Ebene-Optimierungen anzuwenden.
- Bereitstellungs-Pipelines zu justieren, um Durchsatz und Latenz zu verbessern.
Format der Veranstaltung
- Interaktiver Vortrag und Diskussion.
- Hände-direkt Einsatz von Profiling- und Optimierungstools auf jeder Plattform.
- Führung durch Übungen, die sich auf praktische Justierungszenarien konzentrieren.
Möglichkeiten der Anpassung des Kurses
- Um eine angepasste Ausbildung für diesen Kurs basierend auf Ihrer Leistungsumgebung oder Modelltyp anzufordern, kontaktieren Sie uns bitte zur Absprache.