Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Jede Sitzung dauert 2 Stunden
Tag 1: Sitzung 1: Geschäftlicher Überblick über Big-Data-Business-Intelligence in der Regierung
- Fallbeispiele von NIH, DoE
- Anpassungsrate von Big Data in Regierungsbehörden & wie sie ihre zukünftigen Abläufe an Big-Data-Prognoseanalysen ausrichten
- Anwendungsbereiche im großen Maßstab bei DoD, NSA, IRS, USDA usw.
- Anbindung von Big Data an Legacy-Daten
- Grundlegendes Verständnis der ermöglichenden Technologien in der Prognoseanalyse
- Datenintegration & Dashboard-Visualisierung
- Betrugsgovernance
- Erstellung von Geschäftsregeln / Betrugserkennung
- Bedrohungserkennung und Profiling
- Kosten-Nutzen-Analyse für die Big-Data-Implementierung
Tag 1: Sitzung 2: Einführung in Big Data - 1
- Hauptmerkmale von Big Data: Volume (Umfang), Variety (Vielfalt), Velocity (Geschwindigkeit) und Veracity (Genauigkeit). MPP-Architektur für das Volumen.
- Datenlager – statisches Schema, sich langsam entwickelnde Datensätze
- MPP-Datenbanken wie Greenplum, Exadata, Teradata, Netezza, Vertica usw.
- Hadoop-basierte Lösungen – keine Einschränkungen bezüglich der Struktur des Datensatzes.
- Typisches Muster: HDFS, MapReduce (Crunch), Abruf von HDFS
- Batch-Verarbeitung – geeignet für analytische / nicht interaktive Prozesse
- Volumen: CEP-Streaming-Daten
- Häufige Wahlmöglichkeiten – CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
- Weniger produktionsreif – Storm/S4
- NoSQL-Datenbanken – (spaltenorientiert und Schlüssel-Wert): Am besten geeignet als analytisches Zusatzmodul zu Datenlager/-datenbank
Tag 1: Sitzung 3: Einführung in Big Data - 2
NoSQL-Lösungen
- KV-Speicher – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV-Speicher – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-Speicher (Hierarchisch) – GT.m, Cache
- KV-Speicher (Geordnet) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tupel-Speicher – Gigaspaces, Coord, Apache River
- Objektdatenbank – ZopeDB, DB40, Shoal
- Dokumentenspeicher – CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Datenbanken, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide-Columnar-Speicher – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Arten von Daten: Einführung in das Thema Datenbereinigung bei Big Data
- RDBMS – statische Struktur / Schema, fördert keine agilen, erkundenden Umgebungen.
- NoSQL – semi-strukturiert, genug Struktur, um Daten ohne exaktes Schema vor der Speicherung zu speichern
- Herausforderungen bei der Datenbereinigung
Tag 1: Sitzung 4: Einführung in Big Data - 3: Hadoop
- Wann sollte man sich für Hadoop entscheiden?
- STRUKTURIERT – Unternehmensdatenlager/-datenbanken können massive Datenmengen speichern (zu einem Preis), erzwingen jedoch Struktur (nicht ideal für aktive Erkundung)
- SEMI-STRUKTURIERTE Daten – schwierig mit herkömmlichen Lösungen (DW/DB) zu bewältigen
- Datenlagerung = enormer Aufwand und statisch, selbst nach der Implementierung
- Für Vielfalt und Volumen von Daten, verarbeitet auf Standardhardware – HADOOP
- Standard-Hardware wird benötigt, um einen Hadoop-Cluster zu erstellen
Einführung in MapReduce / HDFS
- MapReduce – verteilte Berechnung über mehrere Server
- HDFS – macht Daten für den Berechnungsprozess lokal verfügbar (mit Redundanz)
- Daten – können unstrukturiert / schemalos sein (im Gegensatz zu RDBMS)
- Entwicklerverantwortung, Sinn aus den Daten zu gewinnen
- Programmierung von MapReduce = Arbeit mit Java (Vor-/Nachteile), manuelles Laden von Daten in HDFS
Tag 2: Sitzung 1: Big-Data-Ökosystem – Aufbau eines Big-Data-ETLs: Universum der Big-Data-Tools – welches wann einzusetzen ist?
- Hadoop im Vergleich zu anderen NoSQL-Lösungen
- Für interaktiven, zufälligen Zugriff auf Daten
- HBase (spaltenorientierte Datenbank) auf Basis von Hadoop
- Zufälliger Zugriff auf Daten, jedoch mit Einschränkungen (max. 1 PB)
- Nicht ideal für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitreihen
- Sqoop – Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
- Flume – Streaming-Daten (z. B. Protokolldaten) in HDFS
Tag 2: Sitzung 2: Big-Data-Managementsystem
- Bewegliche Teile, Compute-Knoten starten / fallen aus: ZooKeeper – für Konfiguration / Koordination / Dienstenamen.
- Komplexe Pipelines / Workflows: Oozie – Workflow verwalten, Abhängigkeiten, Daisy-Chain-Verknüpfungen
- Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator): Ambari
- In der Cloud: Whirr
Tag 2: Sitzung 3: Prognoseanalyse in der Business Intelligence - 1: Grundlagen & Maschinenlernen-basierte BI :
- Einführung in das Maschinenlernen
- Lernen von Klassifizierungstechniken
- Bayessche Vorhersage – Vorbereiten der Trainingsdatei
- Support Vector Machine
- KNN p-Tree Algebra & vertikales Mining
- Neuronale Netzwerke
- Problem großer Variablen bei Big Data – Random Forest (RF)
- Automatisierungsproblem bei Big Data – Multi-Modell-Ensemble RF
- Automatisierung durch Soft10-M
- Textanalyse-Tool – Treeminer
- Agiles Lernen
- Agentenbasiertes Lernen
- Verteiltes Lernen
- Einführung in Open-Source-Tools für die Prognoseanalyse: R, Rapidminer, Mahout
Tag 2: Sitzung 4: Ökosystem der Prognoseanalyse - 2: Häufige Probleme der prozeduralen Analyse in der Regierung
- Insight-Analyse
- Visualisierungsanalyse
- Strukturierte prognostische Analyse
- Unstrukturierte prognostische Analyse
- Bedrohungs-/Betrüger-/Händler-Profilierung
- Empfehlungsmaschine
- Mustererkennung
- Regel-/Szenarioerkennung – Fehler, Betrug, Optimierung
- Ursachenfindung (Root Cause Discovery)
- Sentiment-Analyse
- CRM-Analyse
- Netzwerkanalyse
- Textanalyse
- Technologieunterstützte Prüfung
- Betrugsanalyse
- Echtzeit-Analyse
Tag 3: Sitzung 1: Echtzeit- und skalierbare Analyse über Hadoop
- Warum scheitern gängige AnalyseaAlgorithmen in Hadoop/HDFS?
- Apache Hama – für bulk-synchrone verteilte Berechnung
- Apache SPARK – für Cluster-Berechnung zur Echtzeitanalyse
- CMU Graphics Lab2 – graphbasierter asynchroner Ansatz zur verteilten Berechnung
- KNN p-Algebra-basierter Ansatz von Treeminer zur Reduzierung der Betriebskosten der Hardware
Tag 3: Sitzung 2: Tools für eDiscovery und Forensik
- eDiscovery über Big Data im Vergleich zu Legacy-Daten – ein Kosten- und Leistungsvergleich
- Predictive Coding und technologieunterstützte Prüfung (TAR)
- Live-Demo eines TAR-Produkts (vMiner), um zu verstehen, wie TAR für eine schnellere Discovery funktioniert
- Schnelleres Indexieren durch HDFS – Geschwindigkeit der Daten
- NLP oder Natural Language Processing – verschiedene Techniken und Open-Source-Produkte
- eDiscovery in Fremdsprachen – Technologie zur Verarbeitung von Fremdsprachen
Tag 3: Sitzung 3: Big-Data-BI für Cybersicherheit – Verständnis der ganzheitlichen 360-Grad-Ansicht der schnellen Datensammlung bis zur Bedrohungsidentifizierung
- Verständnis der Grundlagen der Sicherheitsanalyse – Angriffsfläche, Fehlkonfigurationen der Sicherheit, Host-Abwehrmechanismen
- Netzwerkinfrastruktur / großer Datentransport / Response-ETL für Echtzeitanalyse
- Vorschreibend vs. prognostisch – Festgelegte regelbasierte Methoden vs. automatische Erkennung von Bedrohungsregeln aus Metadaten
Tag 3: Sitzung 4: Big Data im USDA: Anwendungen in der Landwirtschaft
- Einführung in IoT (Internet of Things) für die Landwirtschaft – sensorbasierte Big Data und Steuerung
- Einführung in Satellitenbildgebung und deren Anwendung in der Landwirtschaft
- Integration von Sensor- und Bilddaten für Bodenfertilität, Anbauempfehlungen und Prognosen
- Landwirtschaftliche Versicherung und Big Data
- Vorhersage von Ernteverlusten
Tag 4: Sitzung 1: Betrugsvorbeugende BI aus Big Data in der Regierung – Betrugsanalyse:
- Basis-Klassifizierung der Betrugsanalyse – regelbasierte vs. prognostische Analyse
- Überwachtes vs. unüberwachtes Maschinenlernen für das Erkennen von Betrugsmustern
- Händlerbetrug / Übervorteilung bei Projekten
- Medicare- und Medicaid-Betrug – Techniken zur Betrugserkennung bei der Antragsbearbeitung
- Betrug bei Reisekostenerstattungen
- Betrug bei IRS-Rückerstattungen
- Fallstudien und Live-Demos werden dort gegeben, wo Daten verfügbar sind.
Tag 4: Sitzung 2: Social-Media-Analyse – Intelligence-Sammlung und -Analyse
- Big-Data-ETL-API zum Extrahieren von Social-Media-Daten
- Text, Bilder, Metadaten und Videos
- Sentiment-Analyse aus Social-Media-Feeds
- Kontextabhängige und kontextunabhängige Filterung von Social-Media-Feeds
- Social-Media-Dashboard zur Integration diverser Sozialnetze
- Automatisierte Profilierung von Social-Media-Profilen
- Für jede Analyse wird eine Live-Demo über das Treeminer-Tool gegeben.
Tag 4: Sitzung 3: Big-Data-Analyse in der Bildverarbeitung und Videoübertragung
- Bildspeichertechniken in Big Data – Speicherlösungen für Daten, die Petabytes überschreiten
- LTFS und LTO
- GPFS-LTFS (Schichtweise Speicherlösung für große Bilddaten)
- Grundlagen der Bildanalyse
- Gegenstandserkennung
- Bildsegmentierung
- Bewegungstracking
- 3-D-Bildrekonstruktion
Tag 4: Sitzung 4: Big-Data-Anwendungen in den NIH:
- Aufkommende Bereiche der Bioinformatik
- Meta-Genomik und Herausforderungen beim Big-Data-Mining
- Big-Data-Prognoseanalyse für Pharmakogenomik, Metabolomik und Proteomik
- Big Data im nachgelagerten Genomikprozess
- Anwendung der Big-Data-Prognoseanalyse in der öffentlichen Gesundheit
Big-Data-Dashboard für schnellen Zugriff auf diverse Daten und Anzeige :
- Integration bestehender Anwendung Plattformen mit dem Big-Data-Dashboard
- Big-Data-Management
- Fallstudie zum Big-Data-Dashboard: Tableau und Pentaho
- Nutzung von Big-Data-Apps zur Bereitstellung standortbasierter Dienste in der Regierung
- Tracking-System und Verwaltung
Tag 5: Sitzung 1: Wie man die Implementierung von Big-Data-BI innerhalb einer Organisation rechtfertigt:
- Definition des ROI für die Big-Data-Implementierung
- Fallstudien zur Einsparung von Analystenzeit für das Sammeln und Vorbereiten von Daten – Steigerung der Produktivität
- Fallstudien zu den Einnahmeauswirkungen durch das Einsparen Lizenzierter Datenbankkosten
- Einnahmensteigerung durch standortbasierte Dienste
- Einsparungen durch Betrugsvorbeugung
- Ein integrierter Tabellenkalkulationsansatz zur Berechnung von ca. Ausgaben vs. Einnahmensteigerung/Einsparungen aus der Big-Data-Implementierung.
Tag 5: Sitzung 2: Schritt-für-Schritt-Verfahren zum Ersetzen eines Legacy-Datensystems durch ein Big-Data-System:
- Verständnis der praktischen Big-Data-Migrations-Roadmap
- Welche wichtigen Informationen benötigt man, bevor eine Big-Data-Architektur entworfen wird?
- Wie berechnet man das Volumen, die Geschwindigkeit, die Vielfalt und die Genauigkeit der Daten auf verschiedene Weise?
- Wie schätzt man das Datenwachstum ab?
- Fallstudien
Tag 5: Sitzung 4: Überprüfung von Big-Data-Anbietern und ihrer Produkte. Q&A-Sitzung:
- Accenture
- APTEAN (ehemals CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (ehemals 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Teil von EMC)
Voraussetzungen
- Grundlegende Kenntnisse über Geschäftsvorgänge und Datensysteme in der Regierung im jeweiligen Bereich
- Grundlegendes Verständnis von SQL/Oracle oder relationalen Datenbanken
- Grundlegendes Verständnis von Statistik (auf Tabellenkalkulationsebene)
35 Stunden
Erfahrungsberichte (1)
Die Fähigkeit des Trainers, den Kurs den Anforderungen der Organisation anzupassen, anstatt ihn nur zur Erbringung zu geben.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maschinelle Übersetzung