Big Data Data

Szkolenie Apache Spark

Termin

Ustalamy indywidualnie

Czas

16h / 2 dni

Cena

Ustalamy indywidualnie

Szkolenie z Apache Spark

Szkolenie Apache Spark to intensywny, dwudniowy kurs, skoncentrowany na praktycznym zastosowaniu tego popularnego frameworka do przetwarzania dużych zbiorów danych. Program szkolenia jest zaprojektowany w taki sposób, aby 80% czasu było poświęcone na praktyczne warsztaty, a 20% na teorię. Uczestnicy zdobędą solidne podstawy teoretyczne oraz praktyczne umiejętności w korzystaniu z Apache Spark, pracując na rzeczywistych danych i rozwiązując praktyczne problemy.

Dla kogo jest szkolenie z Apache Spark?

Programistów i inżynierów danych, którzy chcą poszerzyć swoje umiejętności o Apache Spark

Data scientistów i analityków danych, pragnących przetwarzać duże zbiory danych w efektywny sposób

Specjalistów IT i big data, którzy chcą wykorzystać Apache Spark w swoich projektach

Wymagane umiejętności technologiczne:

Znajomość podstaw programowania w Pythonie lub Scali

Podstawowa wiedza z zakresu przetwarzania danych

Umiejętność pracy w środowisku Unix/Linux

Program szkolenia z Apache Spark

Dzień 1: Wprowadzenie do Apache Spark i podstawy przetwarzania danych

Wprowadzenie do Apache Spark

Historia i rozwój Apache Spark
Architektura i główne komponenty (RDD, DataFrame, Spark SQL)

Instalacja i konfiguracja środowiska

Instalacja Apache Spark i zależności
Konfiguracja środowiska pracy (Standalone, Hadoop, AWS)

Podstawy przetwarzania danych w Apache Spark

Praca z plikami: JSON, CSV, XML, TXT, Parquet, AVRO
Omówienie czym jest Transformacja, a Akcja (Lazy evaulation)

Dzień 2: Zaawansowane techniki i praktyczne zastosowania

Zaawansowane przetwarzanie danych z użyciem DataFrame i Spark SQL

Tworzenie i zarządzanie DataFrame
Użycie Spark SQL do zapytań na dużych zbiorach danych

Transformacja danych

Sposoby sortowania, grupowania i filtrowania danych
Wykonywanie transformacji danych poprzez funkcje map, flatMap, UDF
Funkcje okna/analityczne

Warsztat: Przetwarzanie i analiza danych z użyciem DataFrame

Implementacja operacji na DataFrame i zapytań SQL
Analiza dużych zbiorów danych z użyciem Spark SQL

Optymalizacja i tunning wydajności

Techniki optymalizacji zapytań i działania Spark
Zarządzanie pamięcią i rozdzielanie zasobów
Partycjonowanie i zapis danych

Deployowanie aplikacji Apache Spark

Przygotowanie i eksportowanie aplikacji Spark
Wdrożenie aplikacji w środowisku produkcyjnym

Czego nauczysz się na szkoleniu Apache Spark?

Jak zainstalować i skonfigurować Apache Spark w różnych środowiskach

Jak przetwarzać i analizować dane z użyciem RDD, DataFrame i Spark SQL

Jak optymalizować zapytania i zarządzać zasobami w Apache Spark

Jak wdrożyć aplikacje Apache Spark w środowisku produkcyjnym

Chcesz dowiedzieć się więcej o szkoleniu z Apache Spark?

Dowiedz się więcej

Przemysław Wołosz

Szkolenia dla firm
(+48) 730 830 801

    Zamów rozmowę