Hlavní navigace

Big Data: Jaká je jejich využitelnost a co to znamená pro vás?

Autor: isifa.com

Některé informace sdílíte dobrovolně, u některých dat ale nezabráníte tomu, aby je o vás třetí strany získaly. Co to pak znamená pro vás a jak vás to může ovlivnit?

Doba čtení: 5 minut

Sdílet

Takzvaná Big Data se dnes užívají k profilování zákaznického chování a cílení reklamy, ale třeba i k tomu, aby banky posoudily, jestli jste dostatečně solventní žadatel o úvěr.

Z čeho všeho o vás mohou instituce zjistit informace a co to pro vás může znamenat? O tom přednášel Jan Čechura ze společnosti Unicorn na konferenci Digitální identita, kterou pořádal Měšec.cz.

Data v podstatě odevzdáváme sami a dobrovolně

Objem dat, která internetem protečou, postupem let exponenciálně roste. V současné době platí, že za jednu minutu odešleme přes 150 milionů e-mailů, postneme 350 tisíc tweetů, uploadujeme na Instagram 40 tisíc obrázků a na Youtube 20 hodin videí. Za jednu minutu. Googlem za minutu proteče 2,4 milionu dotazů a přes WhatsApp 21 milionů zpráv. I tento příliv dat se dá označit za tzv. Big Data.

Více než 90 % všech dat vzniklo v posledních 4 letech. Každé 2 dny vytváříme více informací, než od počátku dějin do roku 2003. Celosvětový objem dat se více než zdvojnásobuje každé dva roky.

Obecně lze říci, že Big Data je souhrnný název pro velké množství dat. Tato data pak mají buď strukturovanou podobu, tedy jde o klasické databáze, nebo naopak nestrukturovanou, pod což spadají videa, obrázky, dokumenty a další.

Důležitá je i hodnota a využitelnost vytěžených dat

Big Data pak podléhají i určitým charakteristikám, a to tzv. 5V:

  • Volume (objem),
  • Velocity (rychlost),
  • Variety (různorodost),
  • Veracity (důvěryhodnost),
  • Value (hodnota).

Volume označuje objem a škálu samotných dat. Aby bylo možné hovořit o tzv. Big Data, musí se jednat o objem dat větší či roven 10 TB.

Velocity poukazuje na rychlost generování a zpracování dat. Typicky se jedná o senzory v autech, vývoj na akciových trzích, ale i rychlost zpracování dat na sociálních sítích. Vesměs vše dnes generuje data ve stále kratších intervalech než v minulosti.

Variety charakterizuje Big Data z pohledu různorodosti. Spadá do nich totiž vše od dat strukturovaných v bankovních registrech přes data obsažená v diagnostické zprávě nabíjecí stanice až po informaci na Facebooku, kam jste právě přidali nějaký příspěvek.

V nejužším pojetí se Big Data definují podle 3 výše uvedených kriterií. V některých verzích se pak přidávají i dvě následující kriteria.

Veracity poukazuje na důvěryhodnost získaných dat. Jinými slovy, informace má určitou váhu podle toho, z jakého zdroje je vytěžená. Například informace z Twitteru bude mít jinou důvěryhodnost než data získaná z běžného měřidla v domácnosti a než z jádra datového skladu banky.

Posledním kriteriem je value neboli hodnota vytěžených dat. V praxi jde o měřítko úspěšnosti využívání Big Data. S tím pak souvisí i cíl sběru dat.

Největším zdrojem dat je Google

Zdaleka největším zdrojem dat je společnost Google, která obsahuje přibližně 15 000 PB dat. Pro srovnání u Facebooku je to okolo 300 PB dat, u eBaye 90 PB dat a na Spotify „jen“ 10 PB dat. Ještě jeden zajímavý úhel pohledu se nám naskytne, pokud se na situaci podíváme z hlediska kapacity lidského mozku. Ten má totiž kapacitu pouze okolo 2,5 PB.

Objem dat navíc roste exponenciálně, jak jsme uvedli již na začátku.

Růst objemu dat a předpokládaný vývoj do budoucna.
Autor: Jan Čechura

Růst objemu dat a předpokládaný vývoj do budoucna.

Podle předpokladu bychom do roku 2020 měli přesáhnout 47 ZB, což je 47 × 1021 B dat. To už je poměrně těžko představitelný objem.

Sběr a zpracování v praxi

Pojďme se nyní podívat na to, jak se tato data získávají a následně zpracovávají. Sběr a uložení dat se označuje pojmem data gathering.

Big Data Platform.
Autor: Jan Čechura

Big Data Platform.

Nejdříve musí proběhnout tzv. data collection, tedy sběr dat z interních a externích zdrojů. Pod interními zdroji si můžeme představit různé interní systémy společností, datový sklad apod. Externí zdroje jsou různé veřejné registry, sociální sítě atd. Následně data putují do tzv. big data storage. Tam dochází k jejich uložení ve vhodné struktuře, ze které bude možné následně data lépe zpracovávat. Dojde tu například z roztřídění dat podle typu.

Pak následuje organization – tedy postprocesy a čištění dat při přechodu z prestage datového skladu do jádra datového skladu.

Na rozdíl od standardních postupů zpracování dat se u Big Data preferuje přístup, kdy se sebraná data nemění ani neupravují. Nedochází tím ke ztrátě informací.

Vytěžování informací

Poté následuje tzv. data mining, tedy vytěžení samotné informace ze získaných dat, což je vlastně primárním cílem. V rámci tohoto procesu se data segmentují a hledají se souvislosti mezi daty.

Už v této fázi je možné získaná data použít k ovlivnění vašeho chování. Například tím, že pomocí vytěžených dat budeme hledat zákazníky, kteří mají potenciál koupit nějaký produkt či službu. Nebo naopak ty, kteří jsou nespokojení a chtějí například přejít k jiné bance. Těm pak někdo z banky na základě vytěžených dat pravděpodobně zavolá a možná jim nabídne i nestandardní výhody, když svůj účet nepřevedou jinam.

V této fázi se dají také segmentovat určité kategorie zákazníků, kteří mají podobné chování. Například podvodníci, kteří se i z pohledu dat vyznačují typickým chováním, na které si pak banka může dát pozor.

V tuto chvíli je také možné nechat data zpracovat pomocí automatických modelů, které se učí z reálných dat, tzv. machine learning. U tohoto modelu se postupuje následovně. Nejdříve spustíme supervised learning, kdy máme vstupní data i výsledné stavy a popíšeme vzájemné vztahy mezi nimi. Ukážeme vlastně modelu, jak se data chovají, a necháme algoritmus zpracovat data do rozhodovacího modelu. U nově příchozích dat je pak model schopen extrapolovat výsledek.

Pak následuje hlavní část, a tou je unsupervised learning. Tam máme pouze vstupní data a na výstupu není ani regrese, ani kvalifikace. Získáváme tím model struktury u dříve nestrukturovaných dat.

Predikce vašeho chování coby zákazníka

Po tomto poměrně složitém procesu přichází velice zajímavá část, a to predikční analýza, která spojí předchozí procesy a rozhodovací mechanismy z uvedených modelů a následně predikuje vaše chování. Dokáže tak předpovědět například vaše chování v určitém typu obchodu, ale i počasí. Predikuje se však i poptávka po elektrickém proudu nebo vaše schopnost splácet dluhy.

V současné době je situace taková, že 75 % finančních institucí investuje nebo plánuje do 2 let investovat právě do rozvoje infrastruktury Big Data. Kromě redukce nákladů vnímají finanční instituce jako pozitivní i fakt, že mohou lépe cílit na své klienty a zefektivnit celý proces.

Diners_Vanoce2019

Jaký to má vliv na vás?

Poslední nezodpovězenou otázkou zůstává, jaký vliv má toto všechno na vás v konečném důsledku. Banky vás díky vytěženým datům mohou segmentovat. Pomocí uvedených procesů pak mohou aplikovat cílený marketing nebo predikovat hrozbu v podobě podvodů s platebními kartami.

Big Data jim ale při kvalitním zpracování zajistí i včasnou detekci chyb a další výhody.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).