Vizuális adatfelderítés R-ben

Az R nyílt forráskódú, ingyenes statisztikai környezetet egyre elterjedtebben használják mind az iparban, mind kutatási célokra; az R-hez elérhető "csomagok" száma exponenciálisan nő (http://blog.revolutionanalytics.com/2010/01/r-package-growth.html), melyek a statisztika/mesterséges intelligencia/intelligens adatfeldolgozás igen sok aspektusát lefedik (lásd például itt).

De mi köze az adatfeldolgozásnak és a statisztikának a a rendszertervezéshez?

A rendszertervezésnek és -karbantartásnak részét képezi a teljesítményanalízis. Ennek egyik eleme az informatikai rendszerekben mérhető nagyszámú teljesítménymetrika - mint pl. a CPU-, diszk-sávszélesség vagy a memória-használat különböző jellemzői - és a rendszer által megvalósított szolgáltatás minőségi paramétere (pl. webkiszolgáló válaszideje) közötti kapcsolatok felderítése és modellezése.

Mint azt projekttapasztalataink is megmutatták, ezen összefüggések megsejtésének egyik alapvető fontosságú eszköze a "vizuális adatfelderítés": a rendelkezésre álló sokdimenziós adatok alkalmasan megválasztott vizualizációi alapján való, nem automatikus, de a statisztikai környezet által segített hipotézis-alkotás. 

Az R egyik erőssége a vizuális adatfelderítés hatékony támogatása - lásd pl. az 'iplots' és az 'rggobi' csomagokat. Ezek a megközelítések azonban sem koncepcionálisan, sem technológiailag nem skálázódnak igazán nagymennyiségű - pl. privát számítási felhő környezetekre jellemző - megfigyelés esetén.

A hallgató(k) főbb feladatai az önálló laboratórium során:

  • Az R-rel való megismerkedés
  • Vizuális adatfelderítés R-ben: a "State of the Art" felmérése
  • Néhány jellemző plot-típus esetén a "Big Data" (interaktív) vizualizációt problematikussá tevő faktorok felmérése és kiértékelése R platformot feltételezve
  • Az eredmények alapján architektúratervezés és "Proof of Concept" implementáció néhány jellemző plot-típusra interaktív "Big Data"-felderítés támogatással
Jelleg: 
Elméleti és gyakorlati
Konzulens: 
Kocsis Imre
TDK lehetőség: 
TDK lehetőség
Megismerhető technológiák: 
R, Java; a téma egyik lehetséges kibontása JavaScript / HTML5 / WebGL irányba visz
Állapot: 
Korábbi