2017
Házi feladat
Jelentkezés: https://goo.gl/forms/306pes5h7hAzAIs02
- Általános tudnivalók: minden házi feladathoz tartozik egy "témavezető", aki:
a) dönt a mérföldkövek elfogadásáról, korrekciókat kér,
b) emailben egyeztetve 1 alkalommal, a 2. mérföldkő után rövid konzultációt biztosít,
c) emailben segít, ahogy tud,
d) az elemzési feladatnál útmutatást ad.
- Az elemzési feladat alapvetően "best effort"; pl. az eredmények statisztikai megalapozottsága nem követelmény. Az elemzési feladatot a tárgy teljes mélységben nem tudja megalapozni, így ennél lehetőség van (és javasolt is) témavezetői segítséget kérni.
- Az elemzés platformja: alapértelmezetten (Py)Spark + Jupyter Notebook + MLlib (az elemzési feladathoz). Elfogadott és támogatott lokális módban futó Spark alkalmazása, az előadáson bemutatott módon (pl. "kulcsrakész" Docker konténerrel). Technológiában és témában is el lehet térni a megadott keretektől, de ehhez kérem, hogy előzetesen egyeztessetek velem. Vizualizációhoz javasolt: datashader + bokeh (az előadáson szerepeltek), kalandvágyóknak PowerBI. Az alapvető követelmény az, hogy a feldolgozás és a megjelenítés a tanult módon, pipeline-szerűen "szét legyen csatolva"; ha ez teljesül, akkor vizualizációs platformot szabadon lehet választani.
- A feladatok szándékosan aluldetermináltak; meggyőződésünk, hogy a "detektívmunkából" tudtok itt a legtöbbet profitálni.
Mérföldkövek:
=============
0. csapatösszeállítás: 3 fős csapatok felállítása önszerveződő módon. Akinek ez nem sikerül, azokat a 31-i előadás szünetében egyeztetve, meg nem jelenés esetén automatikusan osztunk be.
1. jelentkezés: Google Formon csapat és feladatjelentkezés leadása. Határidő: október 31. Elmaradása esetén: lásd fent.
2. ismerkedés az adattal, előzetes EDA:
- Adatszótár kivonatolása és/vagy létrehozása, szakterületi fogalmak felmérésének dokumentálása (amennyiben van erre szükség)
- Leíró statisztikák létrehozása, kezdeti elemzése
- Egyszerű EDA vizualizációk létrehozása, kezdeti elemzése
Leadandó:
- alapértelmezetten magyarázatokkal megfelelően annotált(!) Jupyter notebook.
- Vizualizációs feladat "Big Data" stílusú megoldására egy előzetes (rövid, szöveges + skiccet tartalmazó) specifikáció.
Határidő: nov 13. (Emailben a témavezetőnek.)
3. "Köztesjelentés" a vizualizációs és az elemzési feladat megoldásáról: november 20. (Emailben, a témavezetőnek.)
4. HF bemutatása: a dec. 5-i előadáson, csapatonként 5 percben. A megjelenés alapértelmezés szerint a teljes csapatnak kötelező; a meg nem jelent csapattagokat úgy kezeljük, hogy nem vettek részt a feladat megoldásában.
5. Végleges dokumentáció leadása: december 8. Javítására a témavezető megjegyzései alapján max. dec. 13-ig van lehetőség.
Előadások
9. ea., október 31: Cloudera vendégleőadás
8. ea., október 24: Spark
7. ea., október 17: Az adatelemzés alapfeladatai 2.
6. ea, október 10: Az adatelemzés alapfeladatai 1.
5. ea., október 3: Interaktív EDA és Big Data vizualizáció 2.
4. ea., szeptember 26: Interaktív EDA és Big Data vizualizáció 1.
3. ea., szeptember 19: Leíró statisztikák, EDA, vizualizáció 2.
2. ea., szeptember 12: Leíró statisztikák, EDA, vizualizáció 1.
1. ea., szeptember 5: Bevezető