Storbritannias nasjonalarkiv case study: raskere omgjøring til digitalt arkiv ved hjelp av kunstig intelligens

Kundereferanser

Les om hvordan Storbritannias nasjonalarkiv brukte AI- og ML-teknologi i samarbeid med Iron Mountain for å akselerere konverteringen til et digitalt arkiv.

24. september 20218 minutter
A woman is looking at the computer
Utfordring

Myndighetene i Storbritannia måtte finne en effektiv måte å håndtere det første partiet med dokumenter fra begynnelsen av den digitale alderen. Disse skulle plasseres i Storbritannias nasjonalarkiv i samsvar med kravet om 20 års oppbevaring av informasjon med historisk verdi.

Løsning

Iron Mountain tilbød de nyeste utviklingene innen kunstig intelligens (AI) og maskinlæring (ML) for å lære opp systemet til å gjenkjenne potensiell informasjon som skal oppbevares permanent, oppdage duplikater for makulering, trekke ut enkeltdata og analysere filer.

Resultat

AI- og ML-funksjoner gjør det enklere for offentlige avdelinger å overføre konfidensiell informasjon på en raskere og mer effektiv måte enn å arbeide med samme volum av materiale uten disse verktøyene.

Utfordringen som venter myndighetene

Alle Storbritannias offentlige avdelinger er ansvarlige for å gjennomgå sine dokumenter. De som har historisk verdi må overføres til det nasjonale arkivet (TNA) når de er 20 år, i henhold til reguleringer i Public Records Act 1958 (PRA).

Et viktig steg i denne prosessen er såkalt sensitivitetsvurdering. Dette sikrer at dokumentene som overføres ikke inneholder informasjon som kan skade andre eller utsette britiske myndigheter for risiko.

Den digitale tidsalderen starter

Mesteparten av de største britiske offentlige avdelingene begynte å bevege seg mot en digitalisering rundt 2004; noen avdelinger og byråer har kun eksistert i den digitale tidsalderen (selv om de fortsatt bruker noe papir). Dette betyr at mange dokumenter under PRA kun eksisterer i digitalt format. Dette inkluderer en stor mengde med variert informasjon fra strukturerte datasett til e-poster, Word-dokumenter og regneark.

Omfanget og variasjonen av denne digitale informasjonen betyr at det nesten er umulig å identifisere å velge ut de aktuelle dokumentene kun ved hjelp av «menneskelig arbeidskraft». Offentlige avdelinger begynner å se på tre viktige spørsmål:

  • Kan kunstig intelligens (AI) eller maskinlæring (ML) akselerere eller forenkle klassifiseringen og gjennomgangen av digitale arkiver?
  • Hvor effektivt kan denne teknologien sortere aktuelle dokumenter fra irrelevant data og duplikatfiler uten verdi?
  • Er det gjennomførbart å mate alt inn i ett enkelt system etter utvelgelsen?

For å bidra til å løse myndighetenes utfordring, lanserte TNA prosjektet AI for Digital Selection. Prosjektets mål er å lære mer om eksisterende AI-verktøy som kan brukes for å vurdere og plukke ut dokumenter, e-poster, datasett og andre typer informasjon fra den digitale «databunken» i alle avdelinger.

Utvikling av ai for digital utvelgelse

«På bakgrunn av viktigheten og kompleksiteten til utfordringen, bestemte TNA seg for å kjøre et pilotprogram for å sikre at ethvert behandlingsverktøy var i stand til å oppnå det nødvendige nivået av nøyaktighet og kontroll. De trengte også en partner med dokumenterte resultater innen sikker og effektiv håndtering av store, komplekse prosjekter.»

TNA vurderte tilgjengelige verktøy og identifiserte mellom tre og fem som ble grundig testet på en del av deres egne bedriftsdokumenter. Planen var å finne ut hvordan verktøyene klarte å identifisere dokumenter som skulle velges ut for permanent oppbevaring, og de som ikke skulle det. I tillegg ville TNA hjelpe de offentlige avdelingene med å bruke AI til utvelgelsen. Det involverte å identifisere hvor denne teknologien kunne implementeres i prosessen med å velge ut digitale dokumenter og overføre dem til TNA.

Et godt etablert samarbeid

Iron Mountain har allerede et langt og godt etablert samarbeid med TNA og noen av de største departementene i Storbritannia, etter å ha bidratt til å overføre papirdokumenter i mange år. Bedriften tilbyr også InSight™-tjenester som inkluderer Intelligent Document Processing kombinert med Iron Mountains innholdsanalyser, datahåndtering og informasjonsstyringsekspertise på ML og AI.

Iron Mountain ble valgt ut til å delta i AI for Digital Selection-prosjektet for å forstå hvor effektiv AI er i prosessen med digital utvelgelse.

Håndtering av flere filformater

Iron Mountains verktøy er i stand til å håndtere et bredt utvalg av medieformater, noe som var svært viktig, siden det var mer enn 100 ulike filtyper som skulle behandles i proof-of-concept-studien, inkludert lydfiler, video og tekstbaserte dokumenter. Noen av de mest obskure formatene ble satt på sidelinjen av hensyn til forsøket, men det faktiske antallet filer som falt utenfor studien var lite – mindre enn 10 %. Filene inkludert i proof-of-concept ble deretter lastet opp i Iron Mountains plattform for innholdstjenester for nærmere analyser.

Hva inkluderte løsningen?

Fastslå hva som måtte overføres

Som en del av prosjektet, ga TNA Iron Mountain merkede og umerkede datasett for å demonstrere hvilke AI-egenskaper InSightTM hadde for å identifisere relevante dokumenter ut fra de valgte kriteriene.

Fjerning av sensitive data

Selv med filer som skal gjøres offentlig tilgjengelige, må det være et stadium hvor man kan fjerne sensitiv informasjon som ikke er autorisert for publisering. I en papirbasert verden er dette en fysisk prosess som foregår ved at mennesker gjennomgår dokumentene og merker dem eller redigerer for hånd. Digitale rettsmedisinske teknologiske verktøy tar en annen tilnærming – de tilslører ord eller setninger og stokker om på innholdet om nødvendig.

Veien til suksess

I prøveprosjektet lastet først Iron Mountain de 17 000 testdokumentene inn i Googles skylagringstjeneste. Dokumentene ble behandlet med optisk tegngjenkjenningsteknologi (OCR) for å gjøre dem fullstendig søkbare. Så klassifiserte InSight™ Intelligent Document Processing-plattformen dem inn i 20 forhåndsdefinerte kategorier med naturlig språkbehandling (NLP), en programvareprosess som kan tyde innholdet i et dokument og nyansene i forhold til hvilken sammenheng språket blir brukt i. Dette gjorde at plattformen presist kunne trekke ut informasjonen i filen og bygge assosiasjoner på tvers av eksempelsett for å gjøre et meningsfullt søk mulig.

Maskinlæringsevnene til InSight™ gjorde at prosjektteamet kunne trene modellen i en iterativ prosess gjennom hele prosjektet. Til slutt oppnådde verktøyet en F1-score på over 85 %. Man fikk også disse resultatene:

  • Duplikater ble identifisert for makulering
  • Dokumenter som skulle oppbevares permanent ble identifisert
  • Enheter, inkludert organisasjoner og personer, ble trukket ut
  • Filanalyser, inkludert oppsummering av innhold, alder osv.
  • Resultater for gjennomsnittlig nøyaktighet og hukommelse

Vellykket dokumentasjon av konseptet

InSight™ leverte det nødvendige nivået av funksjonalitet, dokumentklassifisering og duplikatidentifisering. Iron Mountain er stolt av å støtte TNA i dette programmet av nasjonal interesse. Løsningen kan nå brukes i alle offentlige avdelinger for å akselerere overføringen av dokumenter fra alle departementene via et enkelt rammeverk for anskaffelse.

Last ned dokumentet for å lese hele teksten på engelsk.