
Nedávno spoločnosť Tableau sprístupnila nástroj Tableau Prep na prípravu a transformáciu dát, tak som bol zvedavý, čo ponúka. Po preštudovaní Helpu a úvodnom testovaní tohto sw to vyzerá na skvelý nástroj pre všetkých, ktorí potrebujú lepšiu kontrolu nad vstupnými dátami.
Dáta môžu pochádzať z rôznych dátových zdrojov, avšak zoznam podporovaných konektorov je menší ako je pri Tableau Desktop. Predpokladám však, že časom budú pribúdať.
Z môjho pohľadu, pozitíva sú intuitívna a flexibilná manipulácia s dátami, široké portfólio operácií, ktoré sa dajú vykonávať nad dátami, rozsiahle a v prehľadnej forme poskytované informácie o každom vykonanom kroku počas prípravy dát a príťažlivé užívateľské prostredie. Však sa pozrite:
Hlavnou nevýhodou je, že nie je možné vytvoriť live prepojenie na databázu, aplikovať za behu transformácie vytvorené v Prep a finálne spracovanie dát realizovať v Desktope. Ďalšími nevýhodami sú chýbajúce konektory, ktoré sú dostupné v Desktope a zatiaľ som nenašiel spôsob, ako použiť v Custom SQL parametre definované v Desktope.
Pre zaujímavosť pripájam zoznam operácií, ktoré môžeme pomocou Tableau Prep vykonať:
- čistenie dát (od nepotrebných znakov, číslic, medzier,…)
- filtrácia (z dátového zdroja povyberám len položky spĺňajúce moje podmienky)
- rozdelenie stĺpca na viacero stĺpcov (napr. meno a priezvisko rozdelím na samostatné stĺpce)
- zhlukovanie položiek (významovo rovnaké položky spojím do skupiny s jedným názvom. Tu je dokonca k dispozícii fuzzy algoritmus na hľadanie zhody medzi položkami založený na výslovnosti alebo spoločných znakoch. Predpokladám však, že výslovnosť bude fungovať najlepšie na anglických textoch, overíme v praxi)
- pridávanie nových stĺpcov s vlastnými vzorcami
- vymazanie nepotrebných stĺpcov
- konverzia dátových typov jednotlivých stĺpcov ak ich Prep nesprávne predikoval
- pivotovanie stĺpcov (napr. ak máme v stĺpcoch roky tak je vhodnejšie ich transformovať do riadkov)
- spájanie tabuliek cez rôzne typy Join-ov
- zjednotenie viacerých tabuliek s rovnakou štruktúrou do jednej tabuľky cez Union
- agregácia dát (napr. ak potrebujeme zmeniť granularitu vstupných dát, napr. z detailnej tabuľky o obchodných transakciách vytvoríme ďalšiu, ktorá obsahuje agregované údaje o predajoch na úrovni zákazníka a tú potom prepojíme s tabuľkou zákazníkov)
- a samozrejme tvorba výstupného súboru .hyper/.tde alebo .csv, príp. publikovanie na Tableau Server alebo Tableau Online
Je to samozrejme len prvá verzia, ale podľa môjho názoru veľmi vydarená a zdá sa, že aj stabilná. Je užívateľsky veľmi príťažlivá, dobre sa v nej robí a už teraz som zvedavý, s akými vylepšeniami prídu v budúcich verziách.