Elevate the power of your work
Vraag vandaag nog een gratis adviesgesprek aan.
Een lading Britse overheidsdocumenten van 20 jaar oud moest snel en veilig naar The National Archives. Lees de klantcase.
Iron Mountain maakte gebruik van de nieuwste ontwikkelingen in artificial intelligence (AI) en machine learning om het systeem te trainen in het herkennen van permanent te bewaren documenten en te verwijderen duplicaten, het extraheren van entiteiten en het analyseren van bestanden.
Dankzij AI en ML kunnen overheidsinstanties dezelfde hoeveelheid documenten veel sneller en efficiënter overdragen aan The National Archives.
“Het doel van het project AI for Digital Selection was om meer te weten te komen over bestaande AI-tools die gebruikt kunnen worden voor de beoordeling en selectie uit de 'digitale stapel' documenten, e-mails, datasets en andere soorten informatie binnen de Britse overheid.”
Alle Britse ministeries zijn verantwoordelijk voor het controleren van hun documenten. Hebben documenten historische waarde? Dan moeten deze zodra ze twintig jaar oud zijn, worden overgedragen aan The National Archives (TNA), volgens de bepalingen van de Public Records Act 1958. Een belangrijke stap in dit proces is een sensitiviteitsonderzoek. Dit garandeert dat de overgebrachte archiefstukken geen informatie bevatten die anderen kan schaden of die de reputatie van de Britse overheid in gevaar kan brengen.
De meeste Britse ministeries gingen rond 2004 digitaal werken. Sommige departementen en instanties hebben zelfs alleen maar in een digitaal tijdperk bestaan. Dit betekent dat veel van de gegevens die onder de PRA vallen nu alleen nog digitaal zijn. Het gaat om een breed scala aan informatie: van gestructureerde datasets tot e-mails, tekstdocumenten en spreadsheets.
Door de omvang en de verscheidenheid van deze digitale informatie is het bijna onmogelijk om alleen met menselijke inspanning alle waardevolle bestanden te identificeren en te selecteren. Ministeries zitten daarom met deze drie vragen:
Ter ondersteuning van de uitdaging bij de overheid startte TNA het project AI for Digital Selection. Het doel was om meer te weten te komen over bestaande AI-tools die gebruikt kunnen worden voor de beoordeling en selectie uit de 'digitale stapel' documenten, e-mails, datasets en andere soorten informatie binnen de Britse overheid.
The National Archives zocht AI-tools in de markt en onderwierp er drie tot vijf aan een grondige test met een paar van hun eigen bedrijfsdocumenten. Het plan was om na te gaan hoe de tools presteren bij het identificeren van documenten die wel en niet permanent bewaard moeten worden. Daarnaast wilde TNA ministeries helpen bij het gebruik van AI voor selectie. Daarbij werd nagegaan waar deze technieken in het selectieproces van de te archiveren stukken pasten.
Iron Mountain ondersteunt al jaren de overdracht van vele papieren documenten voor zowel TNA als enkele van de grootste Britse ministeries. Hierbij wordt ook InSight™ ingezet, waarbij de expertise van Iron Mountain op het gebied van contentanalyse, gegevensbeheer en informatiegovernance wordt gecombineerd met machine learning en artificial intelligence. Om inzicht te krijgen in de effectiviteit van AI in het proces van digitale selectie mocht Iron Mountain meedoen aan het AI for Digital Selection-project.
In het proof-of-conceptonderzoek moesten meer dan 100 verschillende bestandstypen worden verwerkt, waaronder audio, video en tekstdocumenten. Sommige onbekende formaten werden tijdens de proef buiten beschouwing gelaten, maar uiteindelijk viel minder dan 10% van de bestanden buiten de studie. Vervolgens werden de bestanden in het onderzoek voor analyse in het content services platform van Iron Mountain geladen.
Om de AI-mogelijkheden van InSightTM te demonstreren bij het identificeren van relevante bestanden, voorzag The National Archives Iron Mountain van gelabelde en ongelabelde datasets.
Zelfs voor bestanden die openbaar worden, moet er een fase zijn waarin gevoelige informatie kan worden verwijderd. In een wereld vol papier is dat redigeren van informatie een menselijke handeling: documenten worden met de hand gemarkeerd of bewerkt. Met digitale forensische technologie gaat dat anders: woorden of zinnen worden waar nodig vervormd en verhuld.
Voor de proef laadde Iron Mountain eerst de 17.000 testdocumenten in Google Cloud-opslag. Om ze volledig doorzoekbaar te maken werden de documenten verwerkt met OCR-technologie (optische tekenherkenning). Het documentverwerkingsplatform InSight™ deelde ze vervolgens in twintig vooraf bepaalde categorieën in via natuurlijke taalverwerking. Dit softwareproces ontcijfert de inhoud van een document en de contextuele nuances van de gebruikte taal. Daardoor werd alle informatie nauwkeurig uit de bestanden gehaald, ontstonden er verbanden tussen de data en werd zoeken makkelijker.
Dankzij de machine learning-mogelijkheden van InSight™ kon het projectteam het model trainen in een herhalend proces. Uiteindelijk behaalde de tool een F1-score van meer dan 85%. Dit waren andere resultaten:
Vraag vandaag nog een gratis adviesgesprek aan.