Bardzo dużo danych w naszym życiu – Big Data
Dane są dziś cenniejsze niż złoto i ropa naftowa. Big Data, czyli ogrom danych, to dziś podstawa globalnej gospodarki i wiedza o naszym cyfrowym stylu życia. O Big Data pisze specjalista, popularyzator internetu, prof. Wojciech Nowakowski.
Na przełomie XX i XXI niewielu przypuszczało, że masowość laptopów i smartfonów, czyli w istocie komputerów osobistych, oraz łączący je internet zmieni naszą rzeczywistość. Nadal jednak mała jest świadomość jak gwałtowny jest przez to przyrost powstających danych. Serwis seedscientific.com podał rok temu, że właśnie zgromadzono w sieciach informatycznych około 44 zettabajtów danych (21 zer w zapisie dziesiętnym). Zaś wszystkie dane, które wytworzyła ludzkość od narodzin pisma w starożytności do 2010 roku, to zaledwie 2% tej liczby. Oznacza to, że bez jakichś nowych narzędzi nie bylibyśmy w stanie z tych danych skorzystać. Jest ich po prostu za dużo!
Big Data, a co to?
Big Data to technologia. Określa się ją czterema V: duża ilość (volume), szybko gromadzonych (velocity), zróżnicowanych (variety) i wiarygodnych (veracity) danych. Pojęciem tym możemy np. określić dane zarządu transportu miejskiego dotyczące ścieżek podróży wszystkich pojazdów i ich pasażerów z określonego roku. Z czytników biletów, kamer w pojazdach czy innych dowolnych źródeł. To mogą być nawet gigabajty, czy terabajty różnorodnych danych.
W praktyce jednak tradycyjne zbieranie danych masowych przypominałoby bardziej zamiatanie podłogi niż obróbkę diamentów. Analiza danych Big Data musi więc być różna od tej tradycyjnej. Najbardziej istotna jest a dla niej korelacja. Nie interesują jej natomiast związki przyczynowo-skutkowe. Chcemy wiedzieć „co?”, a nieważne jest „dlaczego?”. Korelacja jako cel badania ma także tę zaletę, że może być prowadzona na na żywo napływających danych, a nie zgromadzonych.
Analizy bez określenia celu?
Od strony informatycznej najistotniejszą zaletą badania korelacji jest to, że nie trzeba określać celu ani stawiać tezy. Analiza Big Data pomaga jedynie stwierdzić, że istnieje korelacja. Na przykład miedzy sprzedażą określonych produktów spożywczych a zjawiskami pogodowymi. Dopiero wtedy może zaczyna się praca dla naukowców by badać istotę tego związku i wyciągać wnioski.
Różnica tkwi także w szczegółach. Analiza Big Data przeprowadzana jest bez wybierania próby losowej. Umożliwia przez to wykrywanie odchyleń, które są znacząco rzadsze niż błąd statystyczny. Nie ma tu efektu próbkowania, a ściślej odstępu między próbkami. Na przykład szybkie zużycie amortyzatorów w dwudziestu z serii 25 tysięcy pojazdów najpewniej nie zostałoby zauważone w tworzonych próbkach losowych. Natomiast w analizie Big Data te 20 samochodów zostanie dostrzeżone i może później zostać zbadane.
Dziś Big Data to rozwiązywanie problemów biznesowych. Wspomaganie podejmowania decyzji. Ułatwianie diagnostyki, np. nowotworów. Znalezienie wycieków sieci wodociągowej czy przypadków kradzieży prądu. To narzędzie, które zamienia dane w użyteczne informacje.
Dane pozostają na zawsze
Korzystając np. z serwisów społecznościowych sami wpisujemy bardzo dużo informacji o sobie, o swoim guście, o tym, co lubimy a czego nie. Te informacje są wykorzystywane przez reklamodawców by wyświetlić lepszą reklamę produktu, który kiedyś oglądaliśmy, a teraz jest na niego promocja.
Skąd oni to wiedzą? Czytają moje maile? Siedzą mi w głowie? Nie, nie muszą. Wchodząc na różne strony robimy wiele czynności i zostawiamy wiele informacji. Dzięki nim właśnie takie firmy mogą funkcjonować.