'Big Data' elemzési módszerek

Oktatók: 
Kocsis Imre
Oktatók: 
Pataricza András
Oktatók: 
Salánki Ágnes

A tárgy célja a Big Data problémakör megoldását biztosító eszközök és módszerek áttekintése, a nagy adatmennyiségből adódó speciális problémák kezelése. A tárgyaláshoz több szempontból előnyös, közös nevező a komplex modellek használata, valamint az adatok hatékony ábrázolása, vizualizációja, ide értve a vizuális adatelemzés lehetőségeinek áttekintését is.

Tárgyfelelős: Dr. Horváth Gábor

(Ábra forrása: http://www.mckinsey.com/insights/business_technology/big_data_the_next_f...)

Tervezett tematika

1. Bevezető előadás: 'Big Data' jellemző definíciói. Alkalmazási területek és minták. Klasszikus RDMBS-ek, adattárházak, statisztikai analízis és statisztikai vizualizációs eszközök használhatósági korlátai Big Data feladatok megoldására. MapReduce algoritmusszervezési paradigma és a Hadoop stack néhány alapvető tulajdonsága.

2. Adatelemzési és statisztikai alapok: Adatelemzési alapfogalmak. Jellemző adatreprezentációk, rekord és változó fogalma, változók típusai. Leíró és következtető statisztika, mint a felderítő és megerősítő adatelemzés eszközei. Adatbányászati alapok.

3. R: az R nyílt forráskódú statisztikai környezet alapvető leíró/transzformációs/vizualizáló funciói.

4. Vizuális elemzés kis és nagy adatokon: alapvető ábratípusok, mint a felderítő elemzés építőkövei. Vizualizáció nagy méretű adathalmazokon, közelítő algoritmusok, az R környezet bigvis csomagja.

5. MapReduce és Hadoop: a MapReduce minta és Hadoop ökoszisztéma. Az általános vektor-mátrix számítási modell, klasszikus felhasználás. Az R rmr2 csomagja.

6. Mintavételezés és anomáliadetektálás: mintavételezés, szűrés nagy méretű adatahalmazokon. Az anomáliadetektálás jellemző algoritmusai és korlátai big data környezetben.

7. Adatbányászat big data fölött: adatbányászati alapproblémák. Csoportosítási algoritmusok hatékonysága.

8. Adatfolyamok: jellemző alkalmazási területek, lehetséges elemzési célfüggvények és minták. Algoritmikus háttér. Samsa, Storm, Infosphere Streams.

9. NoSQL rendszerek: alapvető terminológia, CAP-tétel. Kulcs-érték tárolók (Redis), dokumentumtárolók (mongoDB), oszlopcsaládok (Cassandra, Apache HBase), gráfadatbázisok (Neo4j, Titan).

Kiknek ajánljuk a tárgyat?

A tárgy hallgatói megismerhetik a nagy méretű adathalmazok elemzésére szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközö­ket, valamint a témában alapvető fontosságú algoritmusokat . Különös hangsúllyal kezeljük a nyílt forráskódú R nyelvű eszközök és azok Big Data irányú kiterjesztések ismertetését.

A tárgy tematikája tekintetében komplementer a ’Big Data’ elemzési eszközök nyílt forráskódú platformokon c. tárggyal. Így javasolt a két társtárgy együttes felvétele, vagy egymás után elvégzése (tetszőleges sorrendben). A társtárgyak felvétele egymástól függetlenül is lehetséges.