Dark data,
de onderkant van een ijsberg

Big Data is het “buzz word” van vandaag. Haar horizon lijkt in het oneindige te liggen. Slimme algoritmes moeten waardevolle informatie uit de grote hoop halen.

 

 

“We gaan nu naar een webervaring die één-op-één gepersonaliseerd is. Big data en slimme algoritmes maken het mogelijk” aldus Tjeerd Brenninkmeijer in de nieuwsbrief van Frankwatching.

Big Data: Onvolledig

Dat lukt maar ten dele want  ongestructureerde data blijft buiten het bereik van de huidige ontsluitingssoftware. En dat is een groot deel van de ‘Big Data’, die bestaat uit informatie die een bedrijf verzamelt en ook genereert.

Naar schatting 20% is toegankelijk, de rest niet. De rest is ‘Dark Data’.
Zonde dat maar zo weinig van het activum bedrijfsinformatie bruikbaar is. Dood geld.

 

Dark Data: Onzichtbaar

Zo’n 80%  van het activum blijft ongebruikt omdat het niet doorzoekbaar is. Het is als een ijsberg waarvan slechts een deel boven water uitsteekt.
Die metafoor kwam bij me op toen ik las dat Apple onlangs voor $ 200 mln het bedrijf Lattice heeft overgenomen. Wat doet Lattice en wat beweegt Apple?

Software: DeepDive structureert

Het grootste deel van de informatie die wij produceren, ‘dark data’, is ongestructureerd (tabellen, figuren, beeld en ook teksten) en is dus ontoegankelijk voor de gebruikelijke zoeksystemen van databanken.
Lattice maakt gebruik van een technologie, (DeepDive) om die te structureren (SQL tabellen), in een database te zetten en dus toegankelijk te maken. Mede door middel van ‘machinelearing ‘ die ook ingezet kan worden bij het trainen van AI-systemen.
Dat laatste zou, volgens zeggen, wel eens de insteek van Apple kunnen zijn: met grote hoeveelheden data kunnen ze hun digitale assistent Siri nog slimmer maken. Lattice zou ook al met andere technologiebedrijven hebben gepraat die een AI-assistent hebben, zoals Amazon en Samsung.
Apple zelf onthult overigens niet wat haar beweegredenen zijn.
“Apple buys smaller technology companies from time to time and we generally do not discuss our purpose or plans”.

Lattice
Lattice werd in 2015 opgericht. Ze hebben sindsdien 20 miljoen dollar investeringsgeld binnengehaald. De belangrijkste personen van het bedrijf zijn Christopher Ré (hoogleraar aan Stanford University), Michael Cafarella, Raphael Hoffmann en Feng Niu. Zij commercialiseerden het DeepDive-systeem dat ontwikkeld is aan Stanford.

Hardware: the Machine, supersnel met een yotta geheugen

Ongetwijfeld zal de zojuist aangekondige  computer van Hewlett PackardThe Machine” een steentje bijdragen aan het toegangkelijk maken van ‘dark data’.
Een prototype van de computer die sinds 2014 in ontwikkeling is werd vorige week onthuld. Speciaal ontworpen voor de ‘big data era’. Het prototype heeft een geheugen van 160 terabyte (TB) dat kan worden uitgebreid tot 4.096 yottabyte ( YB, tien tot de 24ste byte), genoeg om 250.000 maal alle data die nu op de wereld bestaat te bevatten. Het ‘operating system’ is gebaseerd op Linux.
The Machine is niet alleen groot maar ook razendsnel.

 

Ying en Yang

The Machine en Deep Dive een koppel dat Dark Data in de toekomst zal weg doen smelten. Wat blijft er dan nog over van de metafoor?
Een ijsberg die op het water danst.

Edwin Kisman

Help, ik kan mijn floppy niet lezen

Floppy okEindelijk gevonden. In een doos achter in de garage. Geklemd tussen 50 andere floppies. Op het etiket “Repositionering Chemische Courant”. Toch gelukt. Maar nu? Kan ik ‘m nog lezen? Heb ik een floppy disk lezer? Nee. En trouwens, heb ik nog MacWrite waarin ik het rapport geschreven heb? Ook niet.
Hoe dan? Niks dan, gewoon jammer. Maar graven in m’n geheugen naar wat er in stond. Reconstrueren.

Lees verder

Ad blockers: ramp of zegen

Ad blockers: ramp of zegenDe afgelopen weken was er nogal wat te doen over ad blockers; reclamewissers in ’t Nederlands. Zo’n ad blocker weert reclame tijdens het surfen op internet De commotie laaide op nadat Apple besloot ad blockers toe te staan in zijn browser ‘Safari’.

Ik wilde een ‘sluitend’ verhaal over ad blockers schrijven. Een blog is daarvoor niet het passende medium. Daarom geef ik hieronder commentaar bij recente artikelen over ad blockers en nog enkele, zoals Kees Fens dat noemde, ongekamde gedachten bij het onderwerp.

Ben Barokas zoekt naar oplossingen

Ben Barokas is de oprichter van Sourcepoint, en spreker op het aanstaande Digital Innovators’ Summit (DIS) dat van 20 tot en met 22 maart 2016 in Berlijn wordt gehouden. Op de website van DIS is het artikel ‘How an ex-Googler is hoping to solve ad blocking and other publishers conundrums’ te lezen. Sourcepoint zoekt het in een transparante uitwisseling van content en geld tussen lezers, uitgeverijen en adverteerders. In dat artikel schrijft hij onder meer: ‘The one choice that should not be available is to consume content without compensating the publisher’. Maar dat is nu precies zoals uitgeverijen hun lezers hebben opgevoed: de inkomsten uit de lezers- en adverteerdersmarkt zijn al decennia lang ernstig uit balans. Uitgeverijen hebben dat geweten en hebben die situatie bewust laten voortbestaan. De enkele uitgever die wees op het risico werd niet gehoord. Het is daarom naar mijn idee niet terecht om nu ineens ‘de bal’ bij de lezers neer te leggen.

De kurk waarop internet drijft zinkt

‘Reclame is de kurk waarop internet drijft’, lees ik in een artikel in de Volkskrant over ad blockers. Laat ik eens aannemen dat deze situatie vooral voor online media geldt. Dan ben ik bang dat ‘we’ al enige tijd aan het zinken zijn; we hebben het alleen nog niet in de gaten omdat iedereen naar de horizon tuurt (‘land in zicht!’) en niemand notie neemt van de averij die ‘onze’ kurk oploopt. Het zinken gaat maar heel langzaam, maar nu is dan het moment gekomen dat onze voeten nat worden.
Het drijfvermogen van de kurk wordt aangetast door twee elkaar versterkende fenomenen: de toename van het aantal online media en—als gevolg daarvan—de toename van het aantal online adverteerders (nodig voor het (mede)financieren van de online media). Dat is nog niet alles: naarmate er meer aanbieders (adverteerders) zijn bij een min of meer gelijkblijvend aantal prospects, zal het effect van advertenties afnemen; niet alleen het aantal prospects blijft min of meer gelijk, maar ook—en dat is even zo belangrijk—de hoeveelheid middelen (geld) die zij ter beschikking hebben. Vooral in kringen van online goeroes wil men nog wel eens aan deze wetmatigheden voorbij gaan. De, ogenschijnlijk, eenvoudigste manier om het afnemen van het reclame-effect te compenseren is ‘harder roepen’, resulterend in opdringerige, door de lezer ongewenste reclame.

Bakzeil gehaald bij rechters

De recente reacties van de advertentie- en uitgeefbranche op het doorstoten van ad blockers zijn daarom te begrijpen, maar missen elke realiteitszin. Eerder dan zich af te vragen waarom lezers ad blockers installeren, dreigt het Interactive Advertising Bureau (IAB) met rechtszaken tegen de producenten ervan. Dat een aantal Duitse uitgeverijen inmiddels nul op het rekest kreeg van de rechter heeft het IAB kennelijk ook niet bij zinnen gebracht. Deze uitgeverijen—waaronder het gerespecteerde Handelsblatt—wilden een verbod op ad blockers. Realiteitszin is er wel bij de bestuurder van de Nederlandse tak van het IAB; die zegt geen voorstander te zijn van rechtszaken. 

Lezers pikken het niet

Diederik Ubels van MobPro debiteert in het Financieele Dagblad: “[dat er een balans moet worden gevonden] tussen advertenties die niet hyperirritant worden gevonden, maar toch opvallen”. Hyperirritant? Fijn! Daarnaast ook ‘gewoon’ irritante advertenties. Het toenemend—en inmiddels massale—gebruik van ad blockers rechtvaardigt de gedachte dat de meeste advertenties in één van deze categorieën moet worden ingedeeld. Dit besef komt rijkelijk te laat, en klinkt daarom hypocriet.

Tegengif helpt niet

Inmiddels is er ook software ontwikkelt die ad blockers onschadelijk maakt. De makers daarvan gaan er geheel aan voorbij dat niet het stukje software met de naam ‘ad blocker’ het probleem is, maar de consument die de ad blocker installeert. Daarmee is  een ad blocker ontstaan van vlees en bloed, met hersenen!