Kurzusleírás

Bevezetés a Multi-Modal AI-ba

  • Mi az a multimodális AI?
  • Főbb kihívások és alkalmazások
  • A vezető multimodális modellek áttekintése

Szövegfeldolgozás és természetes nyelvértés

  • LLM-ek kihasználása szöveges AI-ügynökök számára
  • A multimodális feladatok gyors tervezésének megértése
  • Szövegmodellek finomhangolása tartományspecifikus alkalmazásokhoz

Képfelismerés és -generálás

  • Képek feldolgozása mesterséges intelligencia segítségével: osztályozás, feliratozás és tárgyészlelés
  • Képek generálása diffúziós modellekkel (Stable Diffusion, DALLE)
  • Képadatok integrálása szöveges modellekkel

Beszéd- és hangfeldolgozás

  • Beszédfelismerés Whisper ASR-rel
  • Text-to-speech (TTS) szintézis technikák
  • A felhasználói interakció javítása hangalapú mesterséges intelligencia segítségével

Multimodális bemenetek integrálása

  • AI-folyamatok építése többféle bemeneti típus feldolgozásához
  • Fúziós technikák szöveg-, kép- és beszédadatok kombinálására
  • Multimodális AI-ügynökök valós alkalmazásai

Multi-Modal telepítése AI Agents

  • API-vezérelt multimodális AI-megoldások készítése
  • Modellek optimalizálása a teljesítmény és a méretezhetőség érdekében
  • A multimodális mesterséges intelligencia éles üzembe helyezésének legjobb gyakorlatai

Etikai megfontolások és jövőbeli trendek

  • Elfogultság és igazságosság a multimodális AI-ban
  • Adatvédelmi aggályok a multimodális adatokkal kapcsolatban
  • A multimodális AI jövőbeli fejlesztései

Összegzés és a következő lépések

Követelmények

  • A gépi tanulás alapjainak megértése
  • Python programozásban szerzett tapasztalat
  • A mély tanulási keretrendszerek ismerete (pl. TensorFlow, PyTorch)

Közönség

  • AI fejlesztők
  • Kutatók
  • Multimédia mérnökök
 21 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák