'Big Data' elemzési módszerek - Ajánlott irodalom

 

Megjegyzés: a hivatkozott források - amennyiben másképp nem jelezzük - egyetemi IP címmel a kiadó honlapjáról elérhetőek, vagy szabad hozzáférésűek. Előhívásukhoz a kiadók honlapjának böngészése helyett a Google Scholart, vagy a közvetlenül jelzett linkeket javasoljuk.

1. előadás (2014.09.10.): Bevezetés

 

3. előadás (2014.09.24.): Statisztikai és adatelemzési alapok

  • Izenman, A. J. (2008). Modern Multivariate Statistical Techniques. New York, NY: Springer New York. doi:10.1007/978-0-387-78189-1
  • Zheng, Y., Jestes, J., Phillips, J. M., & Li, F. (2013). Quality and efficiency for kernel density estimates in large data. In Proceedings of the 2013 international conference on Management of data - SIGMOD  ’13 (p. 433). New York, New York, USA: ACM Press. doi:10.1145/2463676.2465319
  • Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/CBO9781139058452
  • Gama, J., & Pinto, C. (2006). Discretization from data streams. In Proceedings of the 2006 ACM symposium on Applied computing - SAC  ’06 (p. 662). New York, New York, USA: ACM Press. doi:10.1145/1141277.1141429
  • http://www.slideshare.net/Hadoop_Summit/creating-histograms-from-data-stream-via-map-reduce

(Izenman, 2008) betekintésre megtalálható a tanszéken. Az előadás a 2., 3. és 4. fejezetekre épít részlegesen.

4. előadás (2014.10.01.): R

Az R nyílt forráskódú és ingyenes statisztikai környezet és statisztikai programozási nyelv.

5. előadás (2014.10.08.): EDA és a bin-summarize-smooth adatvizualizációs megközelítés

6. előadás (2014.10.15.):  MapReduce, (R)Hadoop

  • Lin, J., & Dyer, C. (2010). Data-Intensive Text Processing with MapReduce. Synthesis Lectures on Human Language Technologies, 3(1), 1–177. doi:10.2200/S00274ED1V01Y201006HLT007

7.-8. előadás (2014.10.22/10.29): Mintavételezés, szűrés, outlier detektálás

9. előadás (2014.11.10.): Machine Learning technikák BigData környezetben

  • Abonyi, János. "Adatbányászat a hatékonyság eszköze." Data mining as Device of the Efficiency). ComputerBooks, Budapest, 2006
  • k-means animáció: http://shabal.in/visuals/kmeans/4.html
  • k-means in rmr2: https://github.com/RevolutionAnalytics/rmr2/blob/master/pkg/tests/kmeans.R

10.-11. előadás (2014.11.17./11.24): Adatfolyamok feldolgozása

​13. előadás (2014.12.07.): NoSQL rendszerek