Implement Data Engineering Solutions Using Azure Databricks (DP-750)

Zertifizierungsvorbereitung zum »SQL AI Developer Associate«

Online

4 Tage

Deutsch

PDF herunterladen

€ 2.690,–

zzgl. MwSt.

€ 3.201,10

inkl. MwSt.

Buchungsnummer

42733

Veranstaltungsort

Online

1 Termin

€ 2.690,–

zzgl. MwSt.

€ 3.201,10

inkl. MwSt.

Buchungsnummer

42733

Veranstaltungsort

Online

1 Termin

Werde zertifizierter
Machine Lerning Engineer

Dieser Kurs ist Bestandteil der zertifizierten Master Class "Machine Learning Engineer". Bei Buchung der gesamten Master Class sparst du über 15 Prozent im Vergleich zur Buchung dieses einzelnen Moduls.

Zur Master Class

Inhouse Training

Firmeninterne Weiterbildung nur für eure Mitarbeiter:innen - exklusiv und wirkungsvoll.

Anfragen

In Kooperation mit

Meistere End-to-End-Data-Engineering mit Unity Catalog, erstelle robuste Pipelines, sorge für Sicherheit und stelle optimierte Workloads für skalierbare Lakehouse-Lösungen in Unternehmen bereit.

Inhalte

1. Azure Databricks kennenlernen:
Azure Databricks ist ein Clouddienst, der eine skalierbare Plattform für die Datenanalyse mit Apache Spark bereitstellt.

2. Die Architektur von Azure Databricks verstehen
Dieses Modul beschreibt die hierarchische Architektur von Azure Databricks und behandelt dabei die Trennung von Steuerungs- und Rechenebene, die Kontohierarchie sowie verschiedene Speicheroptionen, einschließlich des verwalteten Speichers von Unity Catalog.

3. Integrationen von Azure Databricks verstehen
Erfahre, wie Azure Databricks mit verschiedenen Microsoft-Diensten wie Fabric, Power BI und Copilot Studio integriert wird, um durchgängige Lösungen für Data Engineering, Analysen und KI bereitzustellen.

4. Rechenressourcen in Azure Databricks auswählen und konfigurieren
Erfahre, wie du Rechenoptionen in Azure Databricks auswählst und konfigurierst, um diese für unterschiedliche Workloads zu optimieren, Leistungseinstellungen und Zugriffsberechtigungen zu verwalten sowie serverlose und klassische Rechenressourcen zu sichern.

5. Erstellen und Organisieren von Objekten im Unity Catalog
Dieses Modul behandelt die Verwendung des dreistufigen Namespace des Unity Catalog (Kataloge, Schemata und Objekte) zum Organisieren von Datenressourcen, zum Erstellen von Tabellen und Volumes sowie zum Konfigurieren von AI/BI Genie-Anweisungen, um die Auffindbarkeit von Daten zu verbessern.

6. Sicherheit von Unity Catalog-Objekte
Erfahre, wie du Unity Catalog-Objekte mithilfe zentralisierter Governance- und Sicherheitsfunktionen wie Zugriffskontrolle, detaillierten Berechtigungen, Zeilen-/Spaltenfilterung und der Authentifizierung des Datenzugriffs über Dienstprinzipale absichern kannst.

7. Governance von Unity Catalog-Objekte
Hier werden grundlegende Governance-Verfahren in Unity Catalog behandelt, darunter die Implementierung einer detaillierten Zugriffskontrolle, die Nachverfolgung der Datenherkunft, die Konfiguration von Prüfprotokollen und die sichere Freigabe von Daten zur Überwachung und Verwaltung Ihrer Datenbestände.

8. Entwerfen und Implementieren von Datenmodellierung mit Azure Databricks
Dieses Modul befasst sich mit effektiver Datenmodellierung in Azure Databricks mit Unity Catalog und behandelt das Entwerfen von Erfassungslogik, die Auswahl von Tools/Formaten, die Implementierung von Partitionierung und Clustering sowie die Verwaltung sich langsam ändernder Dimensionen.

9. Daten in Unity Catalog einlesen
Entdecke umfassende Dateneinlesetechniken in Azure Databricks zum Laden von Daten in Unity Catalog-Tabellen, einschließlich verwalteter Konnektoren, benutzerdefinierten Codes, SQL-Batch-Ladung, Streaming-Einlesung, Auto Loader und Orchestrierung mit Lakeflow Spark Declarative Pipelines.

10. Daten bereinigen, transformieren und in Unity Catalog laden
Dieses Modul behandelt grundlegende Data-Engineering-Techniken zur Bereinigung und Transformation von Rohdaten, darunter Datenqualitätsprofilierung, Werteauflösung, Filterung, Aggregation, Kombination/Umgestaltung von Datensätzen sowie das Laden transformierter Daten mithilfe von Strategien zum Anhängen, Überschreiben und Zusammenführen.

11. Implementierung und Verwaltung von Datenqualitäts-Beschränkungen mit Azure Databricks
Es werden Strategien zur Aufrechterhaltung einer hohen Datenqualität in Azure Databricks untersucht, wobei der Schwerpunkt auf der Implementierung von Validierungsprüfungen, der Durchsetzung von Schemata, der Verwaltung von Schema-Drift und der Verwendung von Pipeline-Erwartungen für die Datenintegrität liegt.

12. Entwurf und Implementierung von Datenpipelines mit Azure Databricks
Lerne, wie du mit Notizbüchern und Lakeflow Spark Declarative Pipelines robuste Datenpipelines in Azure Databricks entwirfst und implementierst, wobei Themen wie Orchestrierung, Fehlerbehandlung und Aufgabenlogik behandelt werden.

13. Implementieren von Lakeflow-Jobs mit Azure Databricks
Die Implementierung von Lakeflow-Jobs in Azure Databricks steht im Mittelpunkt dieses Moduls, das dich durch die Erstellung von Jobs, die Konfiguration von Triggern/Zeitplänen, die Einrichtung von Warnmeldungen und die Verwaltung automatischer Neustarts für eine zuverlässige Ausführung von Datenpipelines führt.

14. Implementieren von Entwicklungslebenszyklusprozessen in Azure Databricks
Dieses Modul befasst sich mit der Implementierung von Entwicklungslebenszyklusprozessen in Azure Databricks unter Verwendung von Git-Ordnern für die Versionskontrolle und Databricks Asset Bundles für Infrastructure-as-Code-Bereitstellungen, einschliesslich Verzweigungs-Workflows, Tests und CLI-basierter Bereitstellung.

15. Überwachen, Fehlerbehebung und Optimierung von Workloads in Azure Databricks
Erfahre, wie du Daten-Workloads in Azure Databricks überwachen, Fehler beheben und optimieren kannst, um Zuverlässigkeit und Kosteneffizienz zu gewährleisten. Dazu analysierst du den Clusterverbrauch, diagnostizierst Spark-Jobs, optimierst die Leistung und leitest Protokolle an Azure Log Analytics weiter.

Anforderungen:

Erfahrung in der Arbeit mit SQL und Python, einschließlich der Verwendung von Notebooks sowie Vertrautheit mit SQL im Hinblick auf Datenorganisation und Zugriffsmuster
Gutes Verständnis der Azure Databricks-Arbeitsbereiche und der Konzepte des Unity Catalog
Grundlegende Kenntnisse der Azure-Sicherheit, einschließlich Microsoft Entra ID (Entra ID) sowie ein grundlegendes Verständnis von Cloud-Speicherkonzepten
Grundlegende Kenntnisse der Konzepte der Datenanalyse und des Data Engineering
Vertrautheit mit den Grundlagen der Versionskontrolle mit Git

Lernumgebung

Dein Nutzen

Einrichten des Databricks-Workspaces und Aufbauen einer umfassenden Daten-Governance mithilfe von Unity Catalog und Microsoft Purview
Organisieren von Datenbeständen (Tabellen, Ansichten und Volumes) mithilfe von Katalogen und Schemata in Unity Catalog unter Anwendung effektiver Namenskonventionen
Implementieren von Zugriffsstrategien, einschließlich feinkörniger Steuerung (Zeilenfilterung/Spaltenmaskierung) und sicheres Verwalten von Anmeldedaten über Service-Principals und verwaltete Identitäten
Auswählen und Konfigurieren von Rechentypen, Aktivieren von Leistungsfunktionen wie Photon-Beschleunigung sowie Verwalten der automatischen Skalierung und der Databricks-Runtime-Versionen für verschiedene Workloads
Entwerfen der Datenaufnahme für Batch- und Streaming-Daten mithilfe von Tools wie Lakeflow Connect, SQL-Befehlen (COPY INTO), Auto Loader oder Spark Structured Streaming
Profilieren und Transformieren von Daten (Joins, Aggregationen), Verwalten von Datentypen, Durchsetzen von Schemata und Validieren der Datenqualität anhand von Pipeline-Erwartungen
Erstellen und Planen von Datenpipelines mithilfe von Lakeflow Spark Declarative Pipelines oder Notebooks, verwaltet durch Lakeflow Jobs mit Triggern, Abhängigkeiten und Fehlerbehandlung
Verwenden von Git zur Versionskontrolle, Automatisieren der Bereitstellung mit Databricks Asset Bundles und Überwachen der Leistung über die Spark-Benutzeroberfläche und zentralisierte Protokollierung (Azure Log Analytics)

Trainer:innen

No items found.

Methoden

Dieser Kurs besteht aus einem Online-Seminar und wird von einer:m Trainer:in geleitet, die/der die Teilnehmenden live betreut. Theorie und Praxis werden mit Live-Demonstrationen und praktischen Übungen vermittelt. Zum Einsatz kommt die Videokonferenz-Software Zoom.

Zertifizierung

Bereite dich mit diesem Kurs auf die Prüfung zum «Microsoft Certified: Azure Databricks Data Engineer Associate (beta)» vor.

Implement Data Engineering Solutions Using Azure Databricks (DP-750)

Zertifizierungsvorbereitung zum »SQL AI Developer Associate«

Buchungsnummer

Preis

Module

Buchungsnummer

Tag & Uhrzeit

Preis

Buchungsnummer

Tag & Uhrzeit

Preis

Veranstaltungsort

Live-Online

Kontaktinformationen

Anreise

Du hast Fragen zum Training?