Termin big data pojawia się obecnie nie tylko w specjalistycznych opracowaniach, ale także w mediach głównego nurtu. Nie za bardzo wiadomo jednak, co się za nim kryje. Spróbujmy dzisiaj spojrzeć nie tylko na samą technologię, ale także na biznesowe konsekwencje jej zastosowania.
Big data to dosłownie dużo danych. Jak dużo to dużo? Typowa ustrukturalizowana baza danych w przedsiębiorstwie zawiera od megabajtów do gigabajtów danych – czyli około 10‑100 miliardów bitów (zer lub jedynek). W dużych przedsiębiorstwach podstawowe zbiory liczone są w terabajtach, coraz częściej w petabajtach (czyli bilionach i biliardach bitów). Sytuacja zmienia się, kiedy w grę nie wchodzą proste dane (np. nazwy czy adresy kontrahentów) a multimedia – nagrania rozmów telefonicznych, zdjęcia, filmy z monitoringu. Danych może być wtedy nawet wiele razy więcej.
Dużo – czyli właściwie: ile?
Jeśli wyjdziemy poza granice jednego przedsiębiorstwa i zaczniemy łączyć dane z różnych źródeł, zmierzymy się z objętościami rzędu eksabajtów, czyli miliardów miliardów bitów. Tutaj ludzka wyobraźnia przestaje powoli się sprawdzać, bo jak sobie wyobrazić miliard miliardów?
W big data nie chodzi jednak o rozmiary danych, a raczej o mnogość ich różnorodności (np. danym o transakcji w sklepie internetowym towarzyszą dane o wszystkich kliknięciach, które wykonał klient, zanim podjął decyzję o zakupie), skojarzoną z innymi danymi na temat danego klienta: jego profilem reklamowym, preferencjami dotyczącymi dostawy, szczegółami zamówienia (włącznie z kodem kreskowym paczki) oraz nagraniami rozmów, które ten klient przeprowadził z infolinią, zanim potwierdził zamówienie.
Wielkie dane, wielkie obliczenia
Big data to zatem nie tylko zbiory danych, ale i sposób ich analizy. Zwykła analiza danych potrafi odpowiedzieć na pytania natury demograficznej w oparciu o informacje zawarte w rekordzie, np.: jaką mamy średnią marżę na produkcie – (w sytuacji, gdy dysponujemy danymi o koszcie zakupu i rekordami sprzedaży); który kanał reklamowy sprawia, że klienci trafiają do naszego serwisu internetowego (jeśli mamy tę informację podaną bezpośrednio). Big data łączy różne źródła danych i jest w stanie wnioskować na ich podstawie, nawet jeśli są one niepełne.
Pytanie, na które potrafi odpowiedzieć analiza tej klasy, to np. w którym z internetowych serwisów społecznościowych opinie na temat naszej firmy są najlepsze, w jakim stopniu przeczytanie relacji z wakacji w serwisie podróżniczym sprawia, że klienci chętniej podejmują decyzje o zakupie wycieczki, czy która grupa wiekowa najchętniej korzysta z naszych produktów – w sytuacji, gdy sami nie zbieramy danych o dacie urodzenia, tylko musimy je wywnioskować z wcześniej odwiedzanych stron albo grupy znajomych klienta.
Symulacje na podstawie dużych zbiorów danych
Zaawansowane metody big data odpowiadają także na pytania spekulatywne: co byłoby, gdybyśmy cenę naszego towaru podwyższyli o 5% i jednocześnie zainwestowali w dany kanał reklamowy albo czy warto byłoby zadbać o grupę klientów podróżujących pociągami, bo średnia marża uzyskana na niej uzasadniłaby koszty dotarcia do tej grupy. Big data to więc łączenie danych analitycznych z transakcyjną zdolnością do podejmowania decyzji tu i teraz.
Złożoność obliczeniowa tej klasy zadań jest o rząd – albo nawet kilka rzędów wielkości – większa niż tradycyjnych zadań analitycznych. Wyobraźmy sobie pięciu przyjaciół, którzy razem chodzą pograć w piłkę nożną. Wracając do domu, wstępują do baru na piwo. Socjologia mówi, że w takiej grupie jest zawsze nieformalny lider – to on wybiera bar oraz markę piwa. Analizując dane o transakcjach kartowych tej grupy oraz stacje bazowe, z którymi łączą się ich telefony, jesteśmy w stanie wyznaczyć ich ulubiony bar. Ale analizując kolejność transakcji, możemy także wskazać lidera – to on dokonuje zakupu pierwszy, a reszta uczestników idzie jego śladem. Wykrycie lidera za pomocą metod analitycznych to jak wygrana na loterii. Możemy do niego kierować reklamy, możemy zaproponować mu kartę lojalnościową albo kupon rabatowy. Z punktu widzenia marketingowego efekt będzie dokładnie taki sam, jakby dotrzeć do wszystkich pięciu. Koszty będą zaś o 80% niższe. Jest więc z czego sfinansować zakup technologii big data.
Big data a chmura
A dokładniej mówiąc − jej wynajęcie. Cechą charakterystyczną big data jest bowiem dostępność tej technologii z chmury obliczeniowej. Nie trzeba posiadać wielkiej serwerowni, w niej potężnych komputerów oraz ogromnych macierzy, aby z big data korzystać. Duża część narzędzi dostępna jest w internecie – wysyłamy swoje zbiory danych do dostawcy technologii, przeprowadzamy odpowiednie obliczenia i pobieramy jedynie wnioski. Taki dostawca często udostępni nam także analityków, którzy pokierują naszymi działaniami: doradzą, jaki potencjał posiadają nasze zbiory, jak je wstępnie obrobić i ustrukturalizować, aby analizy były łatwiejsze, a także pomogą postawić hipotezy i przeprowadzić obliczenia, które je zweryfikują.
Oczywiście trzeba pamiętać, że w przypadku korzystania z chmury obliczeniowej dostęp do danych mamy nie tylko my, ale także dostawca chmury. Może prowadzić takie same – albo doskonalsze – obliczenia na naszych zbiorach danych. Łączyć je z tymi zbiorami, do których my nie posiadamy dostępu (ale które on sam także przetwarza). Godząc się na taki model, musimy pamiętać, że dane i wnioski z nich udostępniamy jednocześnie innym podmiotom.
Stosowanie technologii #bigdata wymaga głębokich zmian w sposobie prowadzenia biznesu.
Zagrożenia
Big data to nie tylko szanse, ale także zagrożenia biznesowe. Analiza wielkich zbiorów danych, zwłaszcza dotyczących konsumentów i ich zachowań, ociera się o inwigilację. Łączenie danych bankowych i telekomunikacyjnych daje nieomal pełnię wiedzy o fizycznych ruchach człowieka. Dołączenie do tego informacji, jakie strony odwiedza, jakie towary kupuje, jakie media czyta, to niemal stuprocentowo pewne informacje o jego wieku, hobby, sytuacji materialnej, rodzinnej.
Analityk big data może nawet dojść do wniosków, z których sam człowiek nie zdaje sobie sprawy, a które dotyczą tzw. wrażliwej strony jego życia. Może np. stwierdzić, że jego małżeństwo nie jest w najlepszej kondycji, on sam posiada kwalifikacje coraz mniej pożądane na rynku, zaś jego tryb życia nie pozwala sądzić, że będzie długo cieszył się zdrowiem. Przetwarzanie tego rodzaju danych objęte jest w większości krajów szczególną ochroną i kontrolą. I jednocześnie bardzo wartościowe – pomyślmy, ile ubezpieczyciel zapłaciłby za informacje o trybie życia i diecie posiadacza polisy na życie.
Szanse
Powróćmy jednak do szans. Bez big data pewne rzeczy nie byłyby w ogóle możliwe. Świetnym przykładem zastosowań jest medycyna. Tomograf komputerowy podczas jednego badania generuje od kilku do kilku tysięcy megabajtów danych. Lekarz może nie spostrzec pierwszych objawów choroby nowotworowej, bo będzie miał gorszy dzień albo za słabe okulary. Algorytm analizujący obrazy z tomografu może natomiast dostrzec anomalie i zasygnalizować to lekarzowi – tym samym prowadząc do szybszego wykrycia i większych szans wyleczenia guza.
Big data to już dzisiaj działające systemy zarządzania ruchem w miastach. Informacje o strumieniach pojazdów napływających z różnych kierunków pozwalają władzom miasta dobrać ustawienie zielonych świateł na kluczowych skrzyżowaniach i zminimalizować poranne oraz popołudniowe korki. Big data pozwala monitorować zagrożenia związane z terroryzmem – wykrywać anormalne zachowania lub zakupy. Przeciwdziała praniu brudnych pieniędzy i finansowaniu terroryzmu. Dzięki narzędziom tej klasy można także analizować dane dotyczące klimatu i odpowiednio wcześnie ostrzegać przed zjawiskami o charakterze katastrofalnym – takimi jak tornada albo powodzie – prowadząc do minimalizacji strat ludzkich i materialnych.
Czy jesteście gotowi?
Big data to nie tylko technologia, ale – może nawet przede wszystkim – stan świadomości organizacji i jej zdolność do podejmowania decyzji. Nie wystarczy gromadzenie danych. Trzeba jeszcze nadać im odpowiedni format i odpowiednio go opisać. Kompetentni analitycy muszą wiedzieć, jaki potencjał w nich tkwi i umieć go wyciągnąć. Technologia –jak to technologia – sama z siebie może niewiele, swoją siłę ujawnia dopiero w rękach specjalisty, który potrafi zastosować ją dla potrzeb biznesu.
Big data to także zmiana kulturowa. Zwłaszcza, powiedzmy to otwarcie, w Polsce, w której w organizacjach nadal często obecny jest model feudalny i dogmat o nieomylności szefa. Sytuacja, w której jakaś maszyna w rękach analityka, działająca na podstawie strumienia zer i jedynek, postawi hipotezy inne niż dyrektor sprzedaży, dla wielu z nich może być trudna do zaakceptowania. Warto upewnić się, że nasza firma będzie zdolna do takiej konfrontacji, zanim zainwestujemy w usługi big data – może się bowiem okazać, że i tak rekomendacje modeli predykcyjnych nie będą brane pod uwagę.
Tak więc na big data trzeba patrzeć kompleksowo – zarówno od strony technologii, jak i struktury oraz kultury organizacji biznesowej, a także prawa i etyki. I tylko takie kompleksowe ujęcie big data ma dzisiaj sens.