

1. Azure Databricks kennenlernen:
Azure Databricks ist ein Clouddienst, der eine skalierbare Plattform für die Datenanalyse mit Apache Spark bereitstellt.
2. Die Architektur von Azure Databricks verstehen
Dieses Modul beschreibt die hierarchische Architektur von Azure Databricks und behandelt dabei die Trennung von Steuerungs- und Rechenebene, die Kontohierarchie sowie verschiedene Speicheroptionen, einschließlich des verwalteten Speichers von Unity Catalog.
3. Integrationen von Azure Databricks verstehen
Erfahre, wie Azure Databricks mit verschiedenen Microsoft-Diensten wie Fabric, Power BI und Copilot Studio integriert wird, um durchgängige Lösungen für Data Engineering, Analysen und KI bereitzustellen.
4. Rechenressourcen in Azure Databricks auswählen und konfigurieren
Erfahre, wie du Rechenoptionen in Azure Databricks auswählst und konfigurierst, um diese für unterschiedliche Workloads zu optimieren, Leistungseinstellungen und Zugriffsberechtigungen zu verwalten sowie serverlose und klassische Rechenressourcen zu sichern.
5. Erstellen und Organisieren von Objekten im Unity Catalog
Dieses Modul behandelt die Verwendung des dreistufigen Namespace des Unity Catalog (Kataloge, Schemata und Objekte) zum Organisieren von Datenressourcen, zum Erstellen von Tabellen und Volumes sowie zum Konfigurieren von AI/BI Genie-Anweisungen, um die Auffindbarkeit von Daten zu verbessern.
6. Sicherheit von Unity Catalog-Objekte
Erfahre, wie du Unity Catalog-Objekte mithilfe zentralisierter Governance- und Sicherheitsfunktionen wie Zugriffskontrolle, detaillierten Berechtigungen, Zeilen-/Spaltenfilterung und der Authentifizierung des Datenzugriffs über Dienstprinzipale absichern kannst.
7. Governance von Unity Catalog-Objekte
Hier werden grundlegende Governance-Verfahren in Unity Catalog behandelt, darunter die Implementierung einer detaillierten Zugriffskontrolle, die Nachverfolgung der Datenherkunft, die Konfiguration von Prüfprotokollen und die sichere Freigabe von Daten zur Überwachung und Verwaltung Ihrer Datenbestände.
8. Entwerfen und Implementieren von Datenmodellierung mit Azure Databricks
Dieses Modul befasst sich mit effektiver Datenmodellierung in Azure Databricks mit Unity Catalog und behandelt das Entwerfen von Erfassungslogik, die Auswahl von Tools/Formaten, die Implementierung von Partitionierung und Clustering sowie die Verwaltung sich langsam ändernder Dimensionen.
9. Daten in Unity Catalog einlesen
Entdecke umfassende Dateneinlesetechniken in Azure Databricks zum Laden von Daten in Unity Catalog-Tabellen, einschließlich verwalteter Konnektoren, benutzerdefinierten Codes, SQL-Batch-Ladung, Streaming-Einlesung, Auto Loader und Orchestrierung mit Lakeflow Spark Declarative Pipelines.
10. Daten bereinigen, transformieren und in Unity Catalog laden
Dieses Modul behandelt grundlegende Data-Engineering-Techniken zur Bereinigung und Transformation von Rohdaten, darunter Datenqualitätsprofilierung, Werteauflösung, Filterung, Aggregation, Kombination/Umgestaltung von Datensätzen sowie das Laden transformierter Daten mithilfe von Strategien zum Anhängen, Überschreiben und Zusammenführen.
11. Implementierung und Verwaltung von Datenqualitäts-Beschränkungen mit Azure Databricks
Es werden Strategien zur Aufrechterhaltung einer hohen Datenqualität in Azure Databricks untersucht, wobei der Schwerpunkt auf der Implementierung von Validierungsprüfungen, der Durchsetzung von Schemata, der Verwaltung von Schema-Drift und der Verwendung von Pipeline-Erwartungen für die Datenintegrität liegt.
12. Entwurf und Implementierung von Datenpipelines mit Azure Databricks
Lerne, wie du mit Notizbüchern und Lakeflow Spark Declarative Pipelines robuste Datenpipelines in Azure Databricks entwirfst und implementierst, wobei Themen wie Orchestrierung, Fehlerbehandlung und Aufgabenlogik behandelt werden.
13. Implementieren von Lakeflow-Jobs mit Azure Databricks
Die Implementierung von Lakeflow-Jobs in Azure Databricks steht im Mittelpunkt dieses Moduls, das dich durch die Erstellung von Jobs, die Konfiguration von Triggern/Zeitplänen, die Einrichtung von Warnmeldungen und die Verwaltung automatischer Neustarts für eine zuverlässige Ausführung von Datenpipelines führt.
14. Implementieren von Entwicklungslebenszyklusprozessen in Azure Databricks
Dieses Modul befasst sich mit der Implementierung von Entwicklungslebenszyklusprozessen in Azure Databricks unter Verwendung von Git-Ordnern für die Versionskontrolle und Databricks Asset Bundles für Infrastructure-as-Code-Bereitstellungen, einschliesslich Verzweigungs-Workflows, Tests und CLI-basierter Bereitstellung.
15. Überwachen, Fehlerbehebung und Optimierung von Workloads in Azure Databricks
Erfahre, wie du Daten-Workloads in Azure Databricks überwachen, Fehler beheben und optimieren kannst, um Zuverlässigkeit und Kosteneffizienz zu gewährleisten. Dazu analysierst du den Clusterverbrauch, diagnostizierst Spark-Jobs, optimierst die Leistung und leitest Protokolle an Azure Log Analytics weiter.
Anforderungen:
Dieser Kurs besteht aus einem Online-Seminar und wird von einer:m Trainer:in geleitet, die/der die Teilnehmenden live betreut. Theorie und Praxis werden mit Live-Demonstrationen und praktischen Übungen vermittelt. Zum Einsatz kommt die Videokonferenz-Software Zoom.
Bereite dich mit diesem Kurs auf die Prüfung zum «Microsoft Certified: Azure Databricks Data Engineer Associate (beta)» vor.
Dieser Kurs richtet sich an Data Engineers, die über grundlegende Kenntnisse der Konzepte der Datenanalyse, ein grundlegendes Verständnis von Cloud-Speicher sowie Vertrautheit mit den Prinzipien der Datenorganisation verfügen.
Lernform
Learning form
Keine Filterergebnisse
Das Training wird in Zusammenarbeit mit einem autorisierten Trainingspartner durchgeführt. Dieser erhebt und verarbeitet Daten in eigener Verantwortung. Bitte nehme die entsprechende Datenschutzerklärung zur Kenntnis.
