Kurzusleírás

Bevezetés

  • A Data Science folyamat
  • A Data Scientist szerepei és felelősségei

A fejlesztési környezet előkészítése

  • Könyvtárak, keretrendszerek, nyelvek és eszközök
  • Helyi fejlesztés
  • Együttműködő web alapú fejlesztés

Adatgyűjtés

  • Különböző típusú adatok
    • Strukturált
      • Helyi adatbázisok
      • Database csatlakozók
      • Általános formátumok: xlxs, XML, Json, csv, ...
    • Strukturálatlan
      • Kattintások, cenzorok, okostelefonok
      • API-k
      • Internet of Things (IoT)
      • Dokumentumok, képek, videók, hangok
  • Esettanulmány: Nagy mennyiségű strukturálatlan adat folyamatos gyűjtése

Adattárolás

  • Relációs adatbázisok
  • Nem relációs adatbázisok
  • Hadoop: Elosztott fájlrendszer (HDFS)
  • Spark: Resilient Distributed Dataset (RDD)
  • Felhőbeli tárolás

Adatok előkészítése

  • Lenyelés, kiválasztás, tisztítás és átalakulás
  • Az adatok minőségének biztosítása – helyesség, értelmesség és biztonság
  • Kivételjelentések

Languages Előkészítéshez, feldolgozáshoz és elemzéshez használják

  • R nyelv
    • Bevezetés R
    • Adatkezelés, számítás és grafikus megjelenítés
  • Python
    • Bevezetés a Python-ba
    • Adatok kezelése, feldolgozása, tisztítása és roppantása

Adatelemzés

  • Feltáró elemzés
    • Alapstatisztika
    • Vizualizációk vázlata
    • Értsd meg az adatokat
  • Kauzalitás
  • Jellemzők és átalakítások
  • Machine Learning
    • Felügyelt vs. nem felügyelt
    • Mikor milyen modellt kell használni
  • Natural Language Processing (NLP)

Data Visualization

  • Legjobb gyakorlatok
  • A megfelelő diagram kiválasztása a megfelelő adatokhoz
  • Színes raklapok
  • A következő szintre emelve
    • Irányítópultok
    • Interaktív vizualizációk
  • Mesélés adatokkal

Összegzés és következtetés

Követelmények

  • Az adatbázis-fogalmak általános ismerete
  • A statisztika alapvető ismerete
 35 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (4)

Közelgő kurzusok

Rokon kategóriák