Kontakt aufnehmen

Schulungsübersicht

Jede Sitzung dauert 2 Stunden

Tag 1: Sitzung 1: Geschäftlicher Überblick über Big-Data-Business-Intelligence in der Regierung

  • Fallbeispiele von NIH, DoE
  • Anpassungsrate von Big Data in Regierungsbehörden & wie sie ihre zukünftigen Abläufe an Big-Data-Prognoseanalysen ausrichten
  • Anwendungsbereiche im großen Maßstab bei DoD, NSA, IRS, USDA usw.
  • Anbindung von Big Data an Legacy-Daten
  • Grundlegendes Verständnis der ermöglichenden Technologien in der Prognoseanalyse
  • Datenintegration & Dashboard-Visualisierung
  • Betrugsgovernance
  • Erstellung von Geschäftsregeln / Betrugserkennung
  • Bedrohungserkennung und Profiling
  • Kosten-Nutzen-Analyse für die Big-Data-Implementierung

Tag 1: Sitzung 2: Einführung in Big Data - 1

  • Hauptmerkmale von Big Data: Volume (Umfang), Variety (Vielfalt), Velocity (Geschwindigkeit) und Veracity (Genauigkeit). MPP-Architektur für das Volumen.
  • Datenlager – statisches Schema, sich langsam entwickelnde Datensätze
  • MPP-Datenbanken wie Greenplum, Exadata, Teradata, Netezza, Vertica usw.
  • Hadoop-basierte Lösungen – keine Einschränkungen bezüglich der Struktur des Datensatzes.
  • Typisches Muster: HDFS, MapReduce (Crunch), Abruf von HDFS
  • Batch-Verarbeitung – geeignet für analytische / nicht interaktive Prozesse
  • Volumen: CEP-Streaming-Daten
  • Häufige Wahlmöglichkeiten – CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
  • Weniger produktionsreif – Storm/S4
  • NoSQL-Datenbanken – (spaltenorientiert und Schlüssel-Wert): Am besten geeignet als analytisches Zusatzmodul zu Datenlager/-datenbank

Tag 1: Sitzung 3: Einführung in Big Data - 2

NoSQL-Lösungen

  • KV-Speicher – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV-Speicher – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV-Speicher (Hierarchisch) – GT.m, Cache
  • KV-Speicher (Geordnet) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tupel-Speicher – Gigaspaces, Coord, Apache River
  • Objektdatenbank – ZopeDB, DB40, Shoal
  • Dokumentenspeicher – CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Datenbanken, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide-Columnar-Speicher – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Arten von Daten: Einführung in das Thema Datenbereinigung bei Big Data

  • RDBMS – statische Struktur / Schema, fördert keine agilen, erkundenden Umgebungen.
  • NoSQL – semi-strukturiert, genug Struktur, um Daten ohne exaktes Schema vor der Speicherung zu speichern
  • Herausforderungen bei der Datenbereinigung

Tag 1: Sitzung 4: Einführung in Big Data - 3: Hadoop

  • Wann sollte man sich für Hadoop entscheiden?
  • STRUKTURIERT – Unternehmensdatenlager/-datenbanken können massive Datenmengen speichern (zu einem Preis), erzwingen jedoch Struktur (nicht ideal für aktive Erkundung)
  • SEMI-STRUKTURIERTE Daten – schwierig mit herkömmlichen Lösungen (DW/DB) zu bewältigen
  • Datenlagerung = enormer Aufwand und statisch, selbst nach der Implementierung
  • Für Vielfalt und Volumen von Daten, verarbeitet auf Standardhardware – HADOOP
  • Standard-Hardware wird benötigt, um einen Hadoop-Cluster zu erstellen

Einführung in MapReduce / HDFS

  • MapReduce – verteilte Berechnung über mehrere Server
  • HDFS – macht Daten für den Berechnungsprozess lokal verfügbar (mit Redundanz)
  • Daten – können unstrukturiert / schemalos sein (im Gegensatz zu RDBMS)
  • Entwicklerverantwortung, Sinn aus den Daten zu gewinnen
  • Programmierung von MapReduce = Arbeit mit Java (Vor-/Nachteile), manuelles Laden von Daten in HDFS

Tag 2: Sitzung 1: Big-Data-Ökosystem – Aufbau eines Big-Data-ETLs: Universum der Big-Data-Tools – welches wann einzusetzen ist?

  • Hadoop im Vergleich zu anderen NoSQL-Lösungen
  • Für interaktiven, zufälligen Zugriff auf Daten
  • HBase (spaltenorientierte Datenbank) auf Basis von Hadoop
  • Zufälliger Zugriff auf Daten, jedoch mit Einschränkungen (max. 1 PB)
  • Nicht ideal für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitreihen
  • Sqoop – Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
  • Flume – Streaming-Daten (z. B. Protokolldaten) in HDFS

Tag 2: Sitzung 2: Big-Data-Managementsystem

  • Bewegliche Teile, Compute-Knoten starten / fallen aus: ZooKeeper – für Konfiguration / Koordination / Dienstenamen.
  • Komplexe Pipelines / Workflows: Oozie – Workflow verwalten, Abhängigkeiten, Daisy-Chain-Verknüpfungen
  • Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator): Ambari
  • In der Cloud: Whirr

Tag 2: Sitzung 3: Prognoseanalyse in der Business Intelligence - 1: Grundlagen & Maschinenlernen-basierte BI :

  • Einführung in das Maschinenlernen
  • Lernen von Klassifizierungstechniken
  • Bayessche Vorhersage – Vorbereiten der Trainingsdatei
  • Support Vector Machine
  • KNN p-Tree Algebra & vertikales Mining
  • Neuronale Netzwerke
  • Problem großer Variablen bei Big Data – Random Forest (RF)
  • Automatisierungsproblem bei Big Data – Multi-Modell-Ensemble RF
  • Automatisierung durch Soft10-M
  • Textanalyse-Tool – Treeminer
  • Agiles Lernen
  • Agentenbasiertes Lernen
  • Verteiltes Lernen
  • Einführung in Open-Source-Tools für die Prognoseanalyse: R, Rapidminer, Mahout

Tag 2: Sitzung 4: Ökosystem der Prognoseanalyse - 2: Häufige Probleme der prozeduralen Analyse in der Regierung

  • Insight-Analyse
  • Visualisierungsanalyse
  • Strukturierte prognostische Analyse
  • Unstrukturierte prognostische Analyse
  • Bedrohungs-/Betrüger-/Händler-Profilierung
  • Empfehlungsmaschine
  • Mustererkennung
  • Regel-/Szenarioerkennung – Fehler, Betrug, Optimierung
  • Ursachenfindung (Root Cause Discovery)
  • Sentiment-Analyse
  • CRM-Analyse
  • Netzwerkanalyse
  • Textanalyse
  • Technologieunterstützte Prüfung
  • Betrugsanalyse
  • Echtzeit-Analyse

Tag 3: Sitzung 1: Echtzeit- und skalierbare Analyse über Hadoop

  • Warum scheitern gängige AnalyseaAlgorithmen in Hadoop/HDFS?
  • Apache Hama – für bulk-synchrone verteilte Berechnung
  • Apache SPARK – für Cluster-Berechnung zur Echtzeitanalyse
  • CMU Graphics Lab2 – graphbasierter asynchroner Ansatz zur verteilten Berechnung
  • KNN p-Algebra-basierter Ansatz von Treeminer zur Reduzierung der Betriebskosten der Hardware

Tag 3: Sitzung 2: Tools für eDiscovery und Forensik

  • eDiscovery über Big Data im Vergleich zu Legacy-Daten – ein Kosten- und Leistungsvergleich
  • Predictive Coding und technologieunterstützte Prüfung (TAR)
  • Live-Demo eines TAR-Produkts (vMiner), um zu verstehen, wie TAR für eine schnellere Discovery funktioniert
  • Schnelleres Indexieren durch HDFS – Geschwindigkeit der Daten
  • NLP oder Natural Language Processing – verschiedene Techniken und Open-Source-Produkte
  • eDiscovery in Fremdsprachen – Technologie zur Verarbeitung von Fremdsprachen

Tag 3: Sitzung 3: Big-Data-BI für Cybersicherheit – Verständnis der ganzheitlichen 360-Grad-Ansicht der schnellen Datensammlung bis zur Bedrohungsidentifizierung

  • Verständnis der Grundlagen der Sicherheitsanalyse – Angriffsfläche, Fehlkonfigurationen der Sicherheit, Host-Abwehrmechanismen
  • Netzwerkinfrastruktur / großer Datentransport / Response-ETL für Echtzeitanalyse
  • Vorschreibend vs. prognostisch – Festgelegte regelbasierte Methoden vs. automatische Erkennung von Bedrohungsregeln aus Metadaten

Tag 3: Sitzung 4: Big Data im USDA: Anwendungen in der Landwirtschaft

  • Einführung in IoT (Internet of Things) für die Landwirtschaft – sensorbasierte Big Data und Steuerung
  • Einführung in Satellitenbildgebung und deren Anwendung in der Landwirtschaft
  • Integration von Sensor- und Bilddaten für Bodenfertilität, Anbauempfehlungen und Prognosen
  • Landwirtschaftliche Versicherung und Big Data
  • Vorhersage von Ernteverlusten

Tag 4: Sitzung 1: Betrugsvorbeugende BI aus Big Data in der Regierung – Betrugsanalyse:

  • Basis-Klassifizierung der Betrugsanalyse – regelbasierte vs. prognostische Analyse
  • Überwachtes vs. unüberwachtes Maschinenlernen für das Erkennen von Betrugsmustern
  • Händlerbetrug / Übervorteilung bei Projekten
  • Medicare- und Medicaid-Betrug – Techniken zur Betrugserkennung bei der Antragsbearbeitung
  • Betrug bei Reisekostenerstattungen
  • Betrug bei IRS-Rückerstattungen
  • Fallstudien und Live-Demos werden dort gegeben, wo Daten verfügbar sind.

Tag 4: Sitzung 2: Social-Media-Analyse – Intelligence-Sammlung und -Analyse

  • Big-Data-ETL-API zum Extrahieren von Social-Media-Daten
  • Text, Bilder, Metadaten und Videos
  • Sentiment-Analyse aus Social-Media-Feeds
  • Kontextabhängige und kontextunabhängige Filterung von Social-Media-Feeds
  • Social-Media-Dashboard zur Integration diverser Sozialnetze
  • Automatisierte Profilierung von Social-Media-Profilen
  • Für jede Analyse wird eine Live-Demo über das Treeminer-Tool gegeben.

Tag 4: Sitzung 3: Big-Data-Analyse in der Bildverarbeitung und Videoübertragung

  • Bildspeichertechniken in Big Data – Speicherlösungen für Daten, die Petabytes überschreiten
  • LTFS und LTO
  • GPFS-LTFS (Schichtweise Speicherlösung für große Bilddaten)
  • Grundlagen der Bildanalyse
  • Gegenstandserkennung
  • Bildsegmentierung
  • Bewegungstracking
  • 3-D-Bildrekonstruktion

Tag 4: Sitzung 4: Big-Data-Anwendungen in den NIH:

  • Aufkommende Bereiche der Bioinformatik
  • Meta-Genomik und Herausforderungen beim Big-Data-Mining
  • Big-Data-Prognoseanalyse für Pharmakogenomik, Metabolomik und Proteomik
  • Big Data im nachgelagerten Genomikprozess
  • Anwendung der Big-Data-Prognoseanalyse in der öffentlichen Gesundheit

Big-Data-Dashboard für schnellen Zugriff auf diverse Daten und Anzeige :

  • Integration bestehender Anwendung Plattformen mit dem Big-Data-Dashboard
  • Big-Data-Management
  • Fallstudie zum Big-Data-Dashboard: Tableau und Pentaho
  • Nutzung von Big-Data-Apps zur Bereitstellung standortbasierter Dienste in der Regierung
  • Tracking-System und Verwaltung

Tag 5: Sitzung 1: Wie man die Implementierung von Big-Data-BI innerhalb einer Organisation rechtfertigt:

  • Definition des ROI für die Big-Data-Implementierung
  • Fallstudien zur Einsparung von Analystenzeit für das Sammeln und Vorbereiten von Daten – Steigerung der Produktivität
  • Fallstudien zu den Einnahmeauswirkungen durch das Einsparen Lizenzierter Datenbankkosten
  • Einnahmensteigerung durch standortbasierte Dienste
  • Einsparungen durch Betrugsvorbeugung
  • Ein integrierter Tabellenkalkulationsansatz zur Berechnung von ca. Ausgaben vs. Einnahmensteigerung/Einsparungen aus der Big-Data-Implementierung.

Tag 5: Sitzung 2: Schritt-für-Schritt-Verfahren zum Ersetzen eines Legacy-Datensystems durch ein Big-Data-System:

  • Verständnis der praktischen Big-Data-Migrations-Roadmap
  • Welche wichtigen Informationen benötigt man, bevor eine Big-Data-Architektur entworfen wird?
  • Wie berechnet man das Volumen, die Geschwindigkeit, die Vielfalt und die Genauigkeit der Daten auf verschiedene Weise?
  • Wie schätzt man das Datenwachstum ab?
  • Fallstudien

Tag 5: Sitzung 4: Überprüfung von Big-Data-Anbietern und ihrer Produkte. Q&A-Sitzung:

  • Accenture
  • APTEAN (ehemals CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (ehemals 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Teil von EMC)

Voraussetzungen

  • Grundlegende Kenntnisse über Geschäftsvorgänge und Datensysteme in der Regierung im jeweiligen Bereich
  • Grundlegendes Verständnis von SQL/Oracle oder relationalen Datenbanken
  • Grundlegendes Verständnis von Statistik (auf Tabellenkalkulationsebene)
 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (1)

Kommende Kurse

Verwandte Kategorien