Dark data,
de onderkant van een ijsberg

Big Data is het “buzz word” van vandaag. Haar horizon lijkt in het oneindige te liggen. Slimme algoritmes moeten waardevolle informatie uit de grote hoop halen.

 

 

“We gaan nu naar een webervaring die één-op-één gepersonaliseerd is. Big data en slimme algoritmes maken het mogelijk” aldus Tjeerd Brenninkmeijer in de nieuwsbrief van Frankwatching.

Big Data: Onvolledig

Dat lukt maar ten dele want  ongestructureerde data blijft buiten het bereik van de huidige ontsluitingssoftware. En dat is een groot deel van de ‘Big Data’, die bestaat uit informatie die een bedrijf verzamelt en ook genereert.

Naar schatting 20% is toegankelijk, de rest niet. De rest is ‘Dark Data’.
Zonde dat maar zo weinig van het activum bedrijfsinformatie bruikbaar is. Dood geld.

 

Dark Data: Onzichtbaar

Zo’n 80%  van het activum blijft ongebruikt omdat het niet doorzoekbaar is. Het is als een ijsberg waarvan slechts een deel boven water uitsteekt.
Die metafoor kwam bij me op toen ik las dat Apple onlangs voor $ 200 mln het bedrijf Lattice heeft overgenomen. Wat doet Lattice en wat beweegt Apple?

Software: DeepDive structureert

Het grootste deel van de informatie die wij produceren, ‘dark data’, is ongestructureerd (tabellen, figuren, beeld en ook teksten) en is dus ontoegankelijk voor de gebruikelijke zoeksystemen van databanken.
Lattice maakt gebruik van een technologie, (DeepDive) om die te structureren (SQL tabellen), in een database te zetten en dus toegankelijk te maken. Mede door middel van ‘machinelearing ‘ die ook ingezet kan worden bij het trainen van AI-systemen.
Dat laatste zou, volgens zeggen, wel eens de insteek van Apple kunnen zijn: met grote hoeveelheden data kunnen ze hun digitale assistent Siri nog slimmer maken. Lattice zou ook al met andere technologiebedrijven hebben gepraat die een AI-assistent hebben, zoals Amazon en Samsung.
Apple zelf onthult overigens niet wat haar beweegredenen zijn.
“Apple buys smaller technology companies from time to time and we generally do not discuss our purpose or plans”.

Lattice
Lattice werd in 2015 opgericht. Ze hebben sindsdien 20 miljoen dollar investeringsgeld binnengehaald. De belangrijkste personen van het bedrijf zijn Christopher Ré (hoogleraar aan Stanford University), Michael Cafarella, Raphael Hoffmann en Feng Niu. Zij commercialiseerden het DeepDive-systeem dat ontwikkeld is aan Stanford.

Hardware: the Machine, supersnel met een yotta geheugen

Ongetwijfeld zal de zojuist aangekondige  computer van Hewlett PackardThe Machine” een steentje bijdragen aan het toegangkelijk maken van ‘dark data’.
Een prototype van de computer die sinds 2014 in ontwikkeling is werd vorige week onthuld. Speciaal ontworpen voor de ‘big data era’. Het prototype heeft een geheugen van 160 terabyte (TB) dat kan worden uitgebreid tot 4.096 yottabyte ( YB, tien tot de 24ste byte), genoeg om 250.000 maal alle data die nu op de wereld bestaat te bevatten. Het ‘operating system’ is gebaseerd op Linux.
The Machine is niet alleen groot maar ook razendsnel.

 

Ying en Yang

The Machine en Deep Dive een koppel dat Dark Data in de toekomst zal weg doen smelten. Wat blijft er dan nog over van de metafoor?
Een ijsberg die op het water danst.

Edwin Kisman

Print Friendly