… uff. Je to za mnou. Krásné tři dny s minimem spánku a s neskutečným přívalem nových informací.
Poprvé jsem si na pořádnou práci s daty sáhl před dvěma čtyřmi lety na BigClean. Stahování, spojování, čištění, analýza. Bylo to super.
Pak jsem nějak narazil na Padáčkův blog a mnohé z těch příběhů, které tam vypráví, mě velmi zaujaly a byl z toho ten wow moment – tohle je něco, čemu by stálo za to věnovat se víc.
Přes prázdniny jsem se k tomu z několika důvodů dostal zase o kousek blíž, zkusil si Tableau a pár dalších věcí, ale nikam ty analýzy, které jsem si chtěl udělat, nedotáhl.
A přišel DataFesťák – tři dny v Hradci Králové, což znamenalo absolutní klid a možnost se tomu pořádně věnovat. První den teoretické přednášky, pak představení technologií a pak zkoušení jednotlivých nástrojů nad skutečnými daty, vymýšlení otázek, na které by mohlo být zajímavé znát odpovědi a snaha ty odpovědi dostat. Včetně validace, zda mohou být správné. Mazec. Ze začátku to nešlo, bolelo a pak to bylo lepší a lepší, člověk začal rozpoznávat známá slovíčka v řeči okolostojících a pomalu ale jistě se dostavoval pocit, že už nejsem úplně ztracený.
Po třech dnech odjezd s velkým spánkovým dluhem, který asi jen tak nedoženu, a s velkým bolehlavem, zda další kariéru trochu neohnout tímto směrem.
Business Track
Padák prý neumí dělat keynotes, ale udělal ji skvěle. Jak rychle probíhá vývoj v mnoha oblastech je něco, co si vůbec neuvědomujeme. Automaticky řízená auta v roce 2014 ujela 11 kilometrů, o rok později už v klidu před 200 km. A potýkají se s takovými věcmi jako jsou nekonečně hluboké propasti, které jim my lidé natvrdo přepíšeme v programu jako že neexistují.
Že je Excel nejpoužívanější BI nástroj jsem tušil (vidíte to všude kolem a nechápete), druhým je (podle publika) Tableau a podobné „moderní“ nástroje a až poté a s velkým odstupem následuje „klasika“ v podání Cognos a dalších.
Google BigQuery, kde si může každý a velmi levně analyzovat co chce. A neskutečně mnoho ohromných datasetů, které je možné pro hraní zdarma využít. Třeba informace o placení daně z nemovitostí v New Yorku.
Jenom si ze všech těch dat nesmí člověk sednout na zadek a zapomenout na to, že někdy se hodí jich kus zahodit a mít díky tomu lepší výsledek. Což platí i v životě.
Mimochodem využít texty, Geneea a udělat vizualizaci jak se mění postavy v průběhu knížky nebo lokace, o kterých se v ní vypráví. Slušná myšlenka, kterou když člověk správně uchopí tak mu to může možná pomoci při učení nebo užívání si příběhu.
Příběh GoodData je super, ale pak když k tomu dostanete přístup, klikáte si, koumáte a zjistíte (a teď je asi hrubě podcením), že jediné, co to umí, je nějak generovat reporty nad daty, která se tam musí někudy nacpat, tak přemýšlíte, proč jsou tak úspěšní. Jasně, je to rychlý, v zásadě i user friendly. Ale pak si klikáte v Keboola a máte pocit, že to umí asi tisíckrát víc a úplně netušíte, proč je vnímáte jako řádově méně úspěšné na trhu.
Mimochodem, pokud se každý den zlepšíte o jediné procento, tak jste za rok výrazně jinde. A pokud se každý den o procento zhoršíte, tak to po roce můžete zavřít.
Seznam sbírá neskutečné množství informací o tom, co u nich děláte, co vás zajímá, co hledáte a stejně byste to měli dělat i vy. A pak vymyslet, k čemu ta data využít. Seznam je používá třeba k behaviorálnímu cílení reklamy.
Česká spořitelna se podle všeho vevnitř neskutečně mění. Překvapivě mnoho lidí v sále ji používá (což vlastně není tak divné, vzhledem k tomu, že je jedním ze „sponzorů“ akce) a uvnitř se snaží žít jako startup. Modelování zákaznického chování a přemýšlením, co opravdu relevantního jim nabídnout. API pro přístup k bankovnictví a open source bankovnictví. Wow. Vymyšlení nového produktu, který se dá nabízet obchodníkům – ze znalosti nákupů zákazníků zaplacených kartami se dá dost dobře vyprofilovat, kde by obchodník mohl otevřít další pobočky nebo jaký má skutečný market share na příslušném trhu. Teď si na to musí nechat dělat drahé a nepřesné výzkumy, z tvrdých dat to zjistí přesněji a rychleji. Přestože lidé prý pořád 4x více vybírají z bankomatu než platí kartou.
PechaKucha styl některých prezentací byl slušný mazec. Hlavně pro přednášející. 20 slidů, které se jim po 20 vteřinách přepínají musí být neskutečný nápor na psychiku a vyžadují přesně vědět, co chcete říct. Attila Lengyel ji podle mého zvládl nejlépe včetně tuny ohromně zajímavých příkladů, k čemu všemu se dá AWS použít. Sledování jízdy talířků sushi na pásu, vyhodnocování oblíbenosti jídel a objednávání surovin? Bomba!
Ohromně užitečná přednáška o tom, jak navrhovat reporty a dashboardy. Spoustu jsem toho už slyšel a věděl, tuna dalších věcí nesmírně zaujala. Minimalizace nedatových bodů (takže zrušení všech ohraničení grafů, maxima nerelevantních čar a jejich potlačení), že semafory a budíky jsou na nic (a minimálně se k semaforu hodí přidat Top 5 záznamů, aby bylo na první pohled vidět zda ten úspěch není způsoben jediným záznamem), dát logo na report je blbost, protože moc přitahuje pozornost, že bychom se měli snažit, aby report stačilo proskenovat očima (paralelní vyhledávání), že díky principu blízkosti a barvám jsme schopni ovlivnit uživatele, jak mají report číst (zda po řádcích nebo sloupcích) a že dashboard by měl být jednostránkový, protože krátkodobá paměť snese tak 7 položek, takže při přepínání mezi záložkami toho spoustu zapomenu.
Hackathon
Dostat k dispozici pár gigabitů dat a k tomu lidi, kteří vědí co v nich je. Přístupy do tuny technologií, které si na tom můžete vyzkoušet – AWS, Power BI, Azure, BlueMix, CleverAnalytics, Clover ETL, Geneea, GoodData, Keboola, Qlik, RapidMiner, Snowflake, Recommender, Tableau, R a určitě ještě pár dalších, na které jsem zapomněl. A samozřejmě v sále spousta lidí, kteří používají další technologie, se kterými se rádi pochlubí. Mazec, takový množství jeden není schopen pobrat, ale je fajn to alespoň v rychlosti vidět a přemýšlet, co se s tím dá udělat.
Pak už si jenom hrajete a hrajete a překvapí vás, když na hodinkách uvidíte 4 ráno. A pořád narážíte (tedy já, neznalec) na věci, které nechápete. Proč trvá tak dlouho natáhnout data z exportních CSV souborů do databáze? Proč je tak neskutečně nutné dobře vymyslet datový model? (i když tohle vlastně chápu, protože v Lotus Notes jsme ho velmi pečlivě tvořili také – podle toho, co budou lidé chtít vidět) Proč to čištění dat trvá tak dlouho, když by v tom exportu měly být správně? Proč, proč, proč?
Nakonec po mnoha hodinách práce máte data uvnitř a začínáte si hrát. Jak se vyvíjí objem transakcí platební kartou podle dnů. Proč se ten vývoj liší u jednotlivých typů obchodníků? Má na to vliv počasí? Jasně že má – když o víkendu prší, tak lidé kupují víc online. Pak zjistíte, že o víkendu prostě jenom víc prší, takže ta domněnka nebyla úplně správná. A další a další. Ohromná zábava a současně neskutečná makačka vymýšlet ty správné otázky, které mají šanci posunout byznys dál.
Výsledky hackathonu
Udělat export dat ze Slacku, který jsme celý víkend používali, hodit to do Gennea na analýzu, předhodit Rku pro nějaké substituce, celé to vysypat do Tableau a získat report sentimentu. Úsměvné výsledky, ale mít hodně dat, tak se to asi vážně dá smysluplně využít.
Při analýze projevů ve sněmovně zjistili, že komunisti rádi používají čísla, aby to vypadalo důvěryhodně. 11 poslanců namluví tolik co zbývajících 236. Mnohé strany rády mluví hlavně o sobě a nezmiňují nikoho jiného. Ivo Valenta používá jednoznačně nejdelší věty. TOP 09 a ODS patří mezi nejsprostější strany. Překvapující je, že o chybějících poslancích se ostatní zmiňují většinou pozitivně. Velmi často se tam mluví o koních, husách či černoprdelnících.
Z dat o kreditních transakcí od České spořitelny se dají zjistit fantastické věci – kde bydlí lidé co nejvíc utrácejí, kde se nejvíc utrácí (IKEA na Zličíně asi jasně vede), v jakých oborech se utrácí nejvíc (výběry z bankomatů, s velkým odstupem potraviny), kdo nejvíc utrácí (klienti ČS dělají cca 30 % transakcí přes terminály ČS z čehož se dá slušně odvodit kolik těch klientů mají ve srovnání s ostatními bankami) nebo kde nejspíše potkáte vhodného partnera podle vašich požadavků na útratu 🙂
K tomu pak analýza pro konkrétního klienta, kde jasně vidíte, které prodejny zavřít, jaký mají potenciál, spádovou oblast a mnoho dalšího. Věrnostní systémy hadr, pokud se vám taková data podaří získat od banky. A také konečně pochopíte, proč je vizualizace na mapě tak důležitá.
Data z hradecké nemocnice prozradila, že VZP hradí hlavně nemoci oběhové soustavy, ve věku mezi 20 – 40 rodí jenom ženy, problémem všeho je hypertenze, o prázdninách se do nemocnice nechodí (protože lékaři leží u vody podle paní doktorky), pokud je teplota kolem nuly tak raketově roste počet případů na chirurgii, do hradecké nemocnice jezdí lidé i z daleka, průměrně si tady muž mezi 20 – 30 poleží 10 dní a jeho léčba stojí cca 118 000 Kč (tohle byl velmi hezky udělaný dashboard).
Příští rok znovu
Ohromné poděkování všem organizátorům, prezentujícím, pomocným silám. Stálo to za to.
Obdiv všem, kteří to dělají každý den a zvláště těm, kteří to dělají úspěšně. A já jdu přemýšlet co s mojí další kariérou.
Pokud chcete vědět ještě víc, tak na Twitteru projeďte hashtag #datafestak. A příští rok do toho jděte také.
Další články z akce:
– http://blog.cleveranalytics.cz/post/134328081316/datafes%C5%A5%C3%A1k-2015
– http://blog.geneea.com/datafestak-2015/
– http://www.dolphinconsulting.cz/blog/delfini-na-data-festaku-2015/