'Big Data' elemzési módszerek - Korábbi házi feladatok

Twitter elemzés

Az infochimps.com oldalon szabadon hozzáférhetően elérhető egy "Twitter Census". Ez a Twitter címkék, hangulatjelek és a bejegyzésekbe ágyazott url-ek egy nagyméretű idősora. A bemeneti adat a különböző elemek gyakoriságát tartalmazza, heti bontásban, egy hároméves ciklust felölelve.

A feladat az egyes csoportok jellemző szezonális karakterisztikájának vizsgálata (pl. "karácsony", "húsvét" címkék előfordulása az év során), illetve néhány, a nemzetközi sajtóban is hangsúlyos esemény megjelenése a bejegyzésekben.

Fő alkalmazott technológia: RHadoop.

Flight data

Az Egyesült Államok-beli repülőjáratok késési statisztikáinak elemzése ma már egyre inkább a Big Data elemzések iskolapéldája. A házi feladat célja kettős: a) aggregált késési statisztikák előállítása és ezek szezonalitásának vizsgálata és vizualizációja; b) a szezonális és trendszerű viselkedéstől eltérő aggregált késési időszakok felderítése, vizualizációja és esetlegesen magyarázata.

Fő alkalmazott technológia: RHadoop, bigvis.