Kurzusleírás
01. nap
Az Big Data Business Intelligence áttekintése a bűnügyi hírszerzés elemzéséhez
- Esettanulmányok a rendfenntartástól – Prediktív rendészet
- Big Data elfogadási aránya a bűnüldöző ügynökségeknél, és hogyan igazítják jövőbeli működésüket a következőhöz: Big Data Predictive Analytics
- Feltörekvő technológiai megoldások, például lövésérzékelők, felügyeleti videó és közösségi média
- Big Data technológia használata az információtúlterhelés csökkentésére
- Interfész Big Data a Legacy adatokkal
- Alapvető ismeretek az engedélyező technológiákról a prediktív analitikában
- Data Integration & Irányítópult megjelenítés
- Csaláskezelés
- Business Rules és a csalások felderítése
- Fenyegetésészlelés és profilalkotás
- Költség-haszon elemzés a Big Data megvalósításhoz
Bevezetés a Big Data-be
- Az Big Data főbb jellemzői -- Térfogat, Változatosság, Sebesség és Igazság.
- MPP (Massively Parallel Processing) architektúra
- Data Warehouses – statikus séma, lassan fejlődő adatkészlet
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop Based Solutions – nincs feltétel az adatkészlet szerkezetére vonatkozóan.
- Tipikus minta: HDFS, MapReduce (crunch), visszakeresés a HDFS-ből
- Apache Spark adatfolyam-feldolgozáshoz
- Batch- alkalmas elemző/nem interaktív
- Hangerő: CEP streaming adatok
- Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevesebb gyártásra kész – Storm/S4
- NoSQL Databases – (oszlop és kulcsérték): A legalkalmasabb analitikai kiegészítésként adattárházhoz/adatbázishoz
NoSQL megoldások
- KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchikus) - GT.m, gyorsítótár
- KV Store (megrendelve) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV gyorsítótár – Memcached, Recached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objektum Database - ZopeDB, DB40, Shoal
- Dokumentumtár - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Változatos adatok: Bevezetés a Data Cleaning-számokhoz a Big Data-ben
- RDBMS – statikus szerkezet/séma, nem segíti elő az agilis, felfedező környezetet.
- NoSQL – félig strukturált, elegendő struktúra az adatok pontos séma nélküli tárolására az adatok tárolása előtt
- Adattisztítási problémák
Hadoop
- Mikor válassza a Hadoop-et?
- STRUKTURÁLT – A vállalati adattárházak/adatbázisok hatalmas mennyiségű adat tárolására képesek (áron), de struktúrát szabnak meg (nem jó az aktív feltáráshoz)
- FÉLSZERKEZETT adat – hagyományos megoldásokkal nehezen kivitelezhető (DW/DB)
- Raktári adatok = HATALMAS erőfeszítés és statikus még a megvalósítás után is
- Az adatok sokféleségéért és mennyiségéért, árucikk hardveren – HADOOP
- H/W árucikk szükséges egy Hadoop fürt létrehozásához
A Map Reduce /HDFS bemutatása
- MapReduce – a számítástechnika elosztása több szerveren
- HDFS – az adatokat helyileg elérhetővé teszi a számítási folyamat számára (redundanciával)
- Adatok – lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
- A fejlesztő felelőssége az adatok értelmezésében
- Programming MapReduce = munka a Java-el (előnyök/hátrányok), adatok manuális betöltése HDFS-be
02. nap
Big Data Ökoszisztéma -- Épület Big Data ETL (kivonás, átalakítás, betöltés) -- Milyen Big Data eszközöket kell használni és mikor?
- Hadoop vs. Egyéb NoSQL megoldások
- Az adatok interaktív, véletlenszerű eléréséhez
- Hbase (oszloporientált adatbázis) a Hadoop tetején
- Véletlenszerű hozzáférés az adatokhoz, de korlátozások (max 1 PB)
- Nem jó ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
- Sqoop – Importálás adatbázisokból Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume – Adatok (pl. naplóadatok) továbbítása HDFS-be
Big Data Management Rendszer
- Mozgó alkatrészek, számítási csomópontok indítása/hiba :ZooKeeper - Konfigurációs/koordinációs/elnevezési szolgáltatásokhoz
- Összetett folyamat/munkafolyamat: Oozie – kezelheti a munkafolyamatot, a függőségeket, a láncszemeket
- Telepítés, konfigurálás, fürtkezelés, frissítés stb (rendszergazda) :Ambari
- Felhőben: Whirr
Predictive Analytics -- Alapvető technikák és Machine Learning alapú Business intelligencia
- Bevezetés a Machine Learning-be
- Osztályozási technikák elsajátítása
- Bayesi előrejelzés -- képzési fájl elkészítése
- Támogatja a Vector gépet
- KNN p-Tree Algebra és vertikális bányászat
- Neural Networks
- Big Data nagy változós probléma -- Véletlenszerű erdő (RF)
- Big Data Automatizálási probléma – Multi-model ensemble RF
- Automatizálás a Soft10-M-en keresztül
- Szövegelemző eszköz – Treeminer
- Agile tanulás
- Ügynök alapú tanulás
- Elosztott tanulás
- Bevezetés a nyílt forráskódú prediktív elemzési eszközökbe: R, Python, Rapidminer, Mahut
Predictive Analytics Az ökoszisztéma és alkalmazása a bűnügyi hírszerzés elemzésében
- Technológia és a nyomozási folyamat
- Insight analitika
- Vizualizációs elemzés
- Strukturált prediktív elemzés
- Strukturálatlan prediktív elemzés
- Fenyegetés/csalássztár/szállító profilalkotás
- Ajánlás Motor
- Mintaészlelés
- Szabály/forgatókönyv felfedezése – hiba, csalás, optimalizálás
- A kiváltó ok feltárása
- Érzelemelemzés
- CRM-analitika
- Hálózati elemzés
- Szövegelemzés az átiratokból, tanúvallomásokból, internetes csevegésből stb.
- Technológiával támogatott felülvizsgálat
- Csalás elemzése
- Valós idejű elemző
03. nap
Valós idejű és Scalable Analytics Over Hadoop
- Miért hibáznak az általános analitikai algoritmusok a Hadoop/HDFS-ben?
- Apache Hama- Tömeges szinkron elosztott számítástechnikához
- Apache SPARK – fürt számítástechnikához és valós idejű elemzéshez
- CMU Graphics Lab2 – gráf alapú aszinkron megközelítés az elosztott számítástechnikához
- KNN p -- Algebra alapú megközelítés a Treeminertől a csökkentett hardver üzemeltetési költségek érdekében
Eszközök az eDiscovery és a Forensics számára
- eDiscovery over Big Data vs. Legacy adatok – a költségek és a teljesítmény összehasonlítása
- Prediktív kódolás és Technológiával Segített Ellenőrzés (TAR)
- A vMiner élő bemutatója annak megértéséhez, hogy a TAR miként teszi lehetővé a gyorsabb felfedezést
- Gyorsabb indexelés a HDFS-en keresztül – Az adatok sebessége
- NLP (Natural Language processing) – nyílt forráskódú termékek és technikák
- eDiscovery idegen nyelveken -- technológia az idegen nyelvi feldolgozáshoz
Big Data BI for Cyber Security – 360 fokos nézet, gyors adatgyűjtés és fenyegetés azonosítás
- A biztonsági elemzés alapjainak megértése – támadási felület, biztonsági hibás konfiguráció, gazdagép védelme
- Hálózati infrastruktúra / Nagy adatcső / Response ETL a valós idejű elemzéshez
- Preskriptív vs prediktív – Rögzített szabályalapú kontra fenyegetési szabályok automatikus felfedezése metaadatokból
Eltérő adatok gyűjtése a bűnügyi hírszerzés elemzéséhez
- Az IoT (Internet of Things) használata érzékelőként az adatok rögzítéséhez
- Műholdfelvételek használata belföldi megfigyeléshez
- Megfigyelési és képi adatok felhasználása bűnügyi azonosításhoz
- Egyéb adatgyűjtési technológiák – drónok, testkamerák, GPS-címkéző rendszerek és hőképalkotási technológia
- Az automatizált adatlekérést informátoroktól, kihallgatástól és kutatástól kapott adatokkal kombinálva
- Forecasting bűncselekmény
04. nap
Csalásmegelőzési BI a Fraud Analytics Big Data-ból
- A csaláselemzés alapvető osztályozása – szabályalapú vagy prediktív elemzés
- Felügyelt és nem felügyelt gépi tanulás a csalási minták észleléséhez
- Business az üzleti csaláshoz, az orvosi követelésekkel kapcsolatos csaláshoz, a biztosítási csaláshoz, az adóelkerüléshez és a pénzmosáshoz
Social Media Analitika – Információgyűjtés és -elemzés
- Hogyan használják a Social Media-ot a bûnözõk szervezõdésre, toborzásra és tervezésre
- Big Data ETL API közösségi média adatok kinyerésére
- Szöveg, kép, metaadatok és videó
- Hangulatelemzés a közösségi média hírfolyamából
- A közösségi média hírfolyamának kontextuális és nem kontextus szerinti szűrése
- Social Media Irányítópult a különféle közösségi média integrálásához
- A közösségi média profiljának automatizált profilalkotása
- Az egyes elemzők élő bemutatója a Treeminer eszközön keresztül történik
Big Data Analitika a képfeldolgozásban és a videohírcsatornákban
- Képtárolási technikák az Big Data-ban – Tárolási megoldás petabájtot meghaladó adatokhoz
- LTFS (Linear Tape File System) és LTO (Linear Tape Open)
- GPFS-LTFS (Általános Párhuzamos Fájlrendszer – Lineáris Szalagos Fájlrendszer) – réteges tárolási megoldás nagy képadatokhoz
- A képelemzés alapjai
- Tárgyfelismerés
- Képszegmentálás
- Mozgáskövetés
- 3D képrekonstrukció
Biometrikák, DNS és új generációs azonosító programok
- Az ujjlenyomatvételen és az arcfelismerésen túl
- Beszédfelismerés, billentyűleütés (a felhasználók gépelési mintájának elemzése) és CODIS (kombinált DNS-indexrendszer)
- A DNS-egyeztetésen túl: kriminalisztikai DNS-fenotipizálással arcot készítünk DNS-mintákból
Big Data Irányítópult a különféle adatok és kijelzők gyors eléréséhez:
- Meglévő alkalmazásplatform integrációja Big Data irányítópulttal
- Big Data menedzsment
- Esettanulmány: Big Data Irányítópult: Tableau és Pentaho
- Használja az Big Data alkalmazást a helyalapú szolgáltatások leküldéséhez a Govt.
- Nyomon követési rendszer és menedzsment
05. nap
Hogyan igazoljuk Big Data a BI bevezetését egy szervezeten belül:
- A ROI meghatározása (Return on Investment) az Big Data megvalósításához
- Esettanulmányok az elemzői idő megtakarítására az adatok gyűjtése és előkészítése során – a termelékenység növelése
- Bevételnyereség az alacsonyabb adatbázis-licencköltségből
- Bevételnyereség a helyalapú szolgáltatásokból
- Költségmegtakarítás a csalás megelőzésével
- Integrált táblázatkezelő megközelítés a hozzávetőleges kiadások és az Big Data megvalósításból származó bevételnövekedés/megtakarítások összehasonlításához.
Lépésről lépésre az örökölt adatrendszer Big Data rendszerre való cseréjének eljárása
- Big Data Migrációs ütemterv
- Milyen kritikus információkra van szükség egy Big Data rendszer felépítéséhez?
- Milyen módszerekkel számítható ki az adatok mennyisége, sebessége, változatossága és hitelessége
- Hogyan becsüljük meg az adatnövekedést
- Esettanulmányok
Big Data Szállítók áttekintése és termékeik áttekintése.
- Accenture
- APTEAN (korábban CDC szoftver)
- Cisco Rendszerek
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatika
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Korábban 10Gen)
- MU Sigma
- Netapp
- Opera megoldások
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Intézet
- Sisense
- Szoftver AG/Terracotta
- Soft10 automatizálás
- Splunk
- Sqrrl
- Supermicro
- Tableau Szoftver
- Teradata
- Gondoljon a Big Analyticsre
- Tidemark rendszerek
- Treeminer
- VMware (Az EMC része)
Q/A munkamenet
Követelmények
- Rendészeti folyamatok és adatrendszerek ismerete
- A SQL/Oracle vagy a relációs adatbázis alapjai
- A statisztikák alapvető ismerete (táblázat szinten)
Közönség
- Műszaki háttérrel rendelkező rendészeti szakemberek
Vélemények (1)
Deepthi szuperül igazodott az igényeimhez, meg tudta mondani, mikor kell összetettebb rétegeket hozzáadni, és mikor kell visszafogni, és strukturáltabb megközelítést alkalmazni. Deepthi valóban az én tempómban dolgozott, és biztosította, hogy magam is tudjam használni az új funkciókat/eszközöket azáltal, hogy először megmutatta, majd engedte, hogy magam készítsem újra azokat az elemeket, amelyek valóban segítették a képzés beágyazását. Nem is lehetnék boldogabb ennek a képzésnek az eredményeinek és a Deepthi szakértelmének!
Deepthi - Invest Northern Ireland
Kurzus - IBM Cognos Analytics
Gépi fordítás