085 200 61 68‬
ai@wizzin.nl

Wat als je data nu eens niet top is?

Wat als je data nu eens niet top is?

Het eerste waar de datascientisten die ik spreek over beginnen is data kwaliteit.

Het schijnt dat gemiddeld genomen 80% van de tijd van een data scientist gaat zitten in het opschonen en gereedmaken van data. En zonder data, veel data en goede data kun je niet aan de slag met Machine Learning en andere leuke Artificial Intelligence varianten.

De praktijk

Nu heb ik een aantal projecten gedaan, waarbij we een oplossing ontwikkeld hebben waarbij we 90% ongestructureerde data hebben, lees tekst in documenten en systeemvelden.

In deze, overigens uiterst succesvolle projecten, was het de uitdaging om uit al dit data exact de juiste en relevante informatie te halen.

Soms wisten we vooraf exact wat we zochten, maar het bleek ook dat er grote behoefte was om zaken naar voren te halen waar niet bewust naar gezocht wordt.

Een andere belangrijke factor is dat we uitsluiten dat bepaalde informatie aanwezig is.

Een voorbeeld te illustratie: We doen een project in het justitiele domein. Hierbij is de vraag als iemand opgepakt wordt, of deze persoon al een veroordeling heeft en onder welke voorwaarden deze vrij op straat loopt. Dit noemt men bijzondere voorwaarden. Deze bijzondere voorwaarden staan in een document, het vonnis, wat op haar beurt weer in een systeem staat, tussen vele andere documenten, en waar er meerdere van kunnen zijn met soms verlopen data.

Het zoeken naar deze voorwaarden is tijdrovend, tijd die er meestal niet is. Maar je wil wel zekerheid hebben of er überhaupt voorwaarden zijn en deze zsm inzien, want heeft iemand deze overtreden, dan is de conclusie meestal snel genomen, en hoef je heel veel ander werk niet meer te doen.

Die zekerheid is wel cruciaal, en dat is een van de dingen die we ondersteunen met onze oplossing, we gaan met zekerheid alle documenten door en halen de voorwaarden, als die er zijn naar voren. En zijn de niet gevonden, dan heb je zekerheid dat ze er niet zijn. 

Weer terug naar de data kwaliteit

Uit deze projecten blijkt dat teksten soms zeer moeilijk interpreteerbaar zijn. Niet iedereen schrijft heel concreet. Zaken die we tegenkomen zijn bijvoorbeeld “het gaat wel goed met hem”. Of spreektaal die in een vlaag van emotie is ingetypt vol met spelfouten en zinnen zonder een concreet begin en eind, waar ook bij het lezen in de context geen touw aan vast te knopen is. Dit staat nog los van de wollige taal die een medisch of psychisch specialist schrijft.

We hebben overwogen deze data te verbeteren. Te beginnen met een spellingchecker, en later ook wellicht AI die misschien kromme zinnen recht zou kunnen maken.

Uiteindelijk hebben we besloten niets van dit alles in te zetten.

Om het simpele feit dat we de bron informatie niet willen en mogen manipuleren. Wat zijn de gevolgen als een spellingchecker de intentie van een bericht wel leesbaar maakt maar net die intentie wijzigt. Komt straks iemand op vrije voeten doordat de spelling checker van een eis een ijs gemaakt heeft?

Dat risico willen we niet nemen.

Wellicht dat in de fase waar we nu zitten, nog redelijk statisch informatie tonen, we hier nog mee wegkomen.

Maar er komt natuurlijk een moment dat er de vraag komt om beslissingen te automatiseren.

Hoe groot is dat de kans dat niemand meer meekijkt en dus fouten gemaakt kunnen worden?

Vraag

Daarom de vraag: Waarom besteed je zoveel tijd aan het opschonen van data, als je hier eigenlijk ook indirect, of misschien wel direct de resultaten beïnvloed.

Ok, je resultaten zullen technisch niet zo goed zijn als je hoopt, maar in de echte wereld kun je het toch niet veroorloven over om data te manipuleren omwille van het succes?

Inhoudelijk slechte data is nu eenmaal inhoudelijk slechte data, daar zal je mee moeten dealen.

Conclusie

Onze conclusie is dat we heel veel efficiënter gaan werken door onze oplossing, maar als we ook intelligentie toe willen gaan voegen, dat eerst de data kwaliteit omhoog zal moeten.

Niet achteraf maar direct bij het creëren van informatie. Dat zal waarschijnlijk betekenen dat er opleidingen moeten komen, dat je mensen moet gaan opvoeden en controleren. En ja, dat kost tijd, maar dat is nu eenmaal het gevolg van de situatie die je zelf hebt laten ontstaan.