Kurzusleírás

1. szakasz: Data Management HDFS-ben

  • Különféle adatformátumok (JSON/Avro/Parquet)
  • Tömörítési sémák
  • Adatmaszkolás
  • Labs : Különböző adatformátumok elemzése; tömörítést tesz lehetővé

2. szakasz: Advanced Pig

  • Felhasználó által definiált funkciók
  • Bevezetés a sertéskönyvtárakba (ElephantBird / Data-Fu)
  • Összetett strukturált adatok betöltése a Pig segítségével
  • Pig Tuning
  • Labs : fejlett pig scripting, összetett adattípusok elemzése

3. szakasz: Haladó Hive

  • Felhasználó által definiált funkciók
  • Tömörített táblázatok
  • Hive Teljesítményhangolás
  • Labs: tömörített táblázatok létrehozása, táblázatformátumok és konfigurációk kiértékelése

4. szakasz: Speciális HBase

  • Speciális sémamodellezés
  • Tömörítés
  • Tömeges adatfeldolgozás
  • Széles asztal / magas asztal összehasonlítása
  • HBase és Pig
  • HBase és Hive
  • HBase teljesítményhangolás
  • Labs : HBase hangolása; HBase adatok elérése a Pig & Hive; A Phoenix használata adatmodellezéshez

Követelmények

  • jól ismeri az Java programozási nyelvet (a legtöbb programozási gyakorlat java-ban van)
  • kényelmes a Linux környezetben (tudjon navigálni Linux parancssorban, szerkeszteni a fájlokat a vi / nano segítségével)
  • a Hadoop munkaismerete.

Labor környezet

Nulla telepítés: Nem kell hadoop szoftvert telepíteni a hallgatók gépére! A tanulók számára egy működő hadoop klasztert biztosítunk.

A tanulóknak a következőkre lesz szükségük

  • SSH-kliens (Linux és Mac-ben már vannak ssh-kliensek, Windowshoz a Putty ajánlott)
  • egy böngésző a fürt eléréséhez. Javasoljuk a Firefox böngészőt
 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák