Kurzusleírás

Bevezetés a Multimodal AI-be

  • A multimodális mesterséges intelligencia és a valós alkalmazások áttekintése
  • Kihívások a szöveg-, kép- és hangadatok integrálásával kapcsolatban
  • A legkorszerűbb kutatások és fejlesztések

Adatfeldolgozás és szolgáltatásfejlesztés

  • Szöveg, kép és hang adatkészletek kezelése
  • Előfeldolgozási technikák a multimodális tanuláshoz
  • Funkció-kinyerési és adatfúziós stratégiák

Multimodális modellek készítése PyTorch és Hugging Face segítségével

  • Bevezetés a PyTorch-be a multimodális tanuláshoz
  • Hugging Face Transzformátorok használata NLP- és látási feladatokhoz
  • Különböző modalitások kombinálása egy egységes AI-modellben

Beszéd, látás és szövegfúzió megvalósítása

  • Integrálás OpenAI Suttogás a beszédfelismeréshez
  • DeepSeek-Vision alkalmazása képfeldolgozáshoz
  • Fúziós technikák a keresztmodális tanuláshoz

Modellek képzése és optimalizálása Multimodal AI

  • Képzési stratégiák modellezése a multimodális mesterséges intelligencia számára
  • Optimalizálási technikák és hiperparaméter-hangolás
  • A torzítás kezelése és a modell általánosításának javítása

Multimodal AI telepítése valós alkalmazásokban

  • Modellek exportálása gyártási célra
  • AI modellek telepítése felhőplatformokon
  • Teljesítményfigyelés és modellkarbantartás

Speciális témák és jövőbeli trendek

  • Zero-shot és little-shot tanulás multimodális AI-ban
  • Etikai megfontolások és felelős AI-fejlesztés
  • Feltörekvő trendek a multimodális AI-kutatásban

Összegzés és a következő lépések

Követelmények

  • A gépi tanulás és a mély tanulási koncepciók alapos ismerete
  • AI keretrendszerekkel, például PyTorch vagy TensorFlow szerzett tapasztalat
  • Szöveg, kép és hang adatfeldolgozás ismerete

Közönség

  • AI fejlesztők
  • Gépi tanulási mérnökök
  • Kutatók
 21 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák