Kurzusleírás

Bevezetés az Reinforcement Learning-ba emberi visszajelzés alapján (RLHF)

  • Mi az RLHF és miért számít
  • Összehasonlítás felügyelt finomhangolási módszerekkel
  • RLHF alkalmazásai a modern AI rendszereiben

Jutalommodellezés emberi visszajelzéssel

  • Emberi visszajelzés gyűjtése és struktúrázása
  • Jutalommodellek építése és kiképzése
  • A jutalommodellek hatékonyságának értékelése

Kiképzés Proximal Policy Optimization (PPO) segítségével

  • A PPO algoritmusok áttekintése RLHF-re
  • PPO implementálása jutalommodellekkel
  • A modellek iteratív és biztonságos finomhangolása

A nyelvmodellek gyakorlati Fine-Tuning

  • Amennyiben datasetek előkészítése RLHF munkafolyamatokhoz
  • Kis LLM finomhangolása gyakorlati módon RLHF használatával
  • A kihívások és csökkentési stratégiák

RLHF skálázása termelési rendszerekbe

  • Infrastruktúra és számítási feltételek
  • Minőségbiztosítás és folyamatos visszajelzéshurok
  • A telepítés és karbantartás legjobb gyakorlatai

Etikai szempontok és elnyomás csökkentése

  • Etikai kockázatok kezelése emberi visszajelzésben
  • Elnyomásfelismerési és korrekciós stratégiák
  • A harmóniák biztosítása és biztonságos kimenetek

Eseményvizsgálatok és valós világbeli példák

  • Eseményvizsgálat: ChatGPT finomhangolása RLHF segítségével
  • Sikeres RLHF telepítések más módokon
  • A megtanult leckék és ipari bekezdések

Összegzés és következő lépések

Követelmények

  • A felügyelt és erősítéses tanulás alapjai megértése
  • Tapasztalat modellek finomhangolásában és neurális hálózati architektúrákban
  • Python programozással és mélytanulási keretekkel (például TensorFlow, PyTorch) való ismeret

A közönség

  • Machine Learning mérnökök
  • Műszaki intelligencia kutatók
 14 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák