Secrets of the Big Data Revolution, Jason & Jeremy Kolb

Secrets of the Big Data Revolution cover Pokud hledáte knížku, která vám vysvětlí základy populárního oboru „big data“ a která vás má šanci nadchnout k jejich využití, tak nemusíte hledat dál. Tato kniha to zvládne krásně.

Rozdělená do čtyř základních částí (data science, big data, nástroje, budoucnost) a prošpikovaná praktickými ukázkami z oblastí, kde jste o nich neměli ani představu.

Základy

Data Intelligence (ono tajemné BI?) má několik různých stupňů, podle toho s čím se spokojíte/potřebujete:

  • statistické reporty – to je to co známe, každý měsíc se vytvoří Excel/graf, založí se a je úplně k ničemu
  • dashboardy – posuneme se na vyšší úroveň – vzniká to pravidelněji a vypadá to krásně
  • výhledy – z dat, která máme k dispozici, vytvoříme výhled, kam se to může dostat
  • korelace – to už je zajímavější, zkusíme dát data dohromady a najít mezi nimi závisloti
  • predikce – přesnější než výhled, dokážeme odhadnout, co se stane když
  • rozpoznání vzoru – ještě lepší jak predikce

Velká škoda, že ve většině firem zatím zamrzli u těch reportů.

Data Science jde dál a může to prý být neskutečná legrace. Nejdřív je třeba data zorganizovat, sjednotit jejich metriky, pak můžete analyzovat a nakonec je hrozně důležité udělat prezentaci dat. Je to takový mix programování, statistiky, hrátky s daty. A ve finále je to takový deštník, pod který se schová všechno ostatní v tomto oboru.

Společnost Target rozesílá personalizované slevové letáky. Jednou si přišel stěžovat tatínek, že asi upadli, když jeho dceři poslali leták zjevně určený těhotné ženě. Druhý den volal zpátky, že dcera je opravdu těhotná a moc se omlouvá. Obchod to podle nákupních zvyklostí věděl prostě dřív než on.

Statistiky ze školy Rio Salado Community College, zdroj: knihaCustomer Retention je jedna z věcí, se kterou vám může správné využití dostupných dat hodně pomoci. Zase to má tři kroky:

  • segmentace – při které se rozdělí (typicky) zákazníci do společných skupin (podle čeho společných si musíte vymyslet sami)
  • další rozdělení – hrubé segmenty máte, nyní je můžete ještě zpřesnit
  • korelace – a nyní je čas zjišťovat jak jsou provázané příčiny a následky. A pozor – korelace neznamená, že příčinou způsobila daný následek

Rio Salado Community College (online škola) zjistila, že vyhodnocením dat z prvních osmi dnů kurzu, se dá dost dobře odhadnout, jestli student kurz dokončí nebo ne. A začít je včas ovlivňovat, aby je dokončili.

V big datech je krásný i efekt sněhové koule – čím víc pracujete s daty, tím víc jich máte a tím víc s nimi můžete dělat. Dokud nespojíte dva datové zdroje tak si neuvědomíte, že díky tomu můžete získat třetí zdarma. A s tím souvisí i dostupnost dalších datových zdrojů. Určitě máte spoustu vlastních a pak můžete použít i ty externí – třeba Infochimps, Microsoft Azure Data Market nebo Pew Research.

Big Data

Big Data jsou, když máte problém s jejich zpracováním. To je dost jednoduchá definice, do které asi většina z vás nespadne, byť si myslíte, že ano. Existují lidé, kteří analyzovali balík dat větší jak 1PB (což je asi tak 1000x víc než jsem stvořil za celý svůj život).

V roce 2010 Eric Schmidt tvrdil, že každé 2 dny vytvoříme tolik dat, jako vzniklo od pravěku do roku 2003. Dnes je to ještě horší, přibližně 90 % dat vzniklo v posledních 2 letech (asi bychom se měli oprávněně ptát, jestli jsou nám k něčemu). A ještě jedno přirovnání – kdyby každý galon Atlantického oceánu reprezentoval byte tak celý oceán pobere data pouze do roku 2010.

V rámci Obamovy volební kampaně v roce 2012 vznikl projekt Narwhal. V rámci něj spojili všechna dostupná data a udělali přehled o voličích, rozčlenili je do skupin a každé řekli z toho tlustého programu jenom to, co chtěli slyšet. Navíc obcházeli jenom nerozhodnuté voliče a netrávili čas s těmi, kteří už jsou rozhodnuti.

Natural Language Processing převádí nestrukturovaná data na strukturovaná a právě ve výše zmíněném projektu to pěkně využili. Řešení existuje víc, jmenujme třeba  Apache OpenNLP, NLTK, Stanford Tagger nebo LingPipe.

Data Discovery Tools jsou „novinka“ a přinášejí změnu myšlení. Zatímco v době BI jsme hledali odpovědi na známé otázky, nyní hledáme ty otázky. Aneb styl „co mi to může ukázat pěkného?“

Technologie

Kniha naťukává i stručný přehled technologií, které jsou v tomto oboru třeba. Samozřejmě databáze, ať už relační nebo NoSQL databáze. Pak je tady Map-Reduce, Hadoop nebo Presto.

Pouhé základy, ale ať víte co hledat.

V oblasti lékařství je tolik nových poznatků, že doktor by musel každý týden věnovat měsíc studiu novinek – IBM Watson pomůže! Každoročně je prý (v Americe předpokládám) vyhozeno do vzduchu 2,3 trillionu dolarů na zbytečnou a neefektivní léčbu. Watson pomůže snížit náklady na pacienty (a pacientům) vymýšlením toho nejlepšího pro každého jednotlivce. Jak po psychické tak ekonomické stránce. Nebo některé prostě přestanou léčit?

Pro nás je to zbytečné …

V knize jsou také dva hezké příklady z oblastí, kde by člověk skoro řekl, že nemá smysl o využití něčeho takého uvažovat. Existuje řešení Farmeron, které je určeno pro zemědělce a prý jim solidně zvyšuje efektivitu (to, že se různé části polí hnojí různě a celé se to řídí pomocí GPS jsem věděl už dřív).

Pro restaurace pak existuje Slingshot, který umožňuje vědět víc, než zda daný den prodělali či vydělali. Zjistěte nejlepšího číšníka, omezte zbytečné přesčasy a získejte z dostupných dat spoustu dalších zajímavých závěrů.

Kde koupit a co s tím

Koupíte určitě na Amazonu a mě kniha kromě stručného přehledu v oblasti přinesla i neskutečnou chuť toto prohlásit za další oblast, které se chci věnovat a poznat ji víc. Doplněno navíc sledováním Padáčkova deníčku, který o této oblasti píše naprosto úžasně.

Zajímá mě tvůj názor