The national archives’ case-studie: accelerering af overgangen til digitale dokumenter ved brug af kunstig intelligens

Kundeudtalelser

Med den seneste udvikling inden for AI og Machine Learning hjalp Iron Mountain det britiske rigsarkiv med at digitalisere og sortere deres dokumenter.

21. marts 20228 min.

Download ressource

Udfordring

Den britiske regering var nødt til at finde en effektiv måde at håndtere det første parti af dokumenter helt tilbage fra begyndelsen af den digitale tidsalder. Disse skulle placeres i The National Archives (det britiske rigsarkiv) grundet 20-årsreglen for bevaring af arkivalier af historisk værdi.

Løsning

Iron Mountain udnyttede den seneste udvikling inden for kunstig intelligens (AI) og Machine Learning (ML) til at træne deres system til at genkende dokumenter, der var kandidater til permanent bevaring, detektere dubletter til disponering, udtage enheder og levere dokumentanalyse.

Resultater

AI- og ML-kapaciteter vil gøre det muligt for offentlige myndigheder at overføre dokumenter langt hurtigere og mere effektivt, end hvis de skulle gennemarbejde samme mængde af materialer uden hjælp fra disse værktøjer.

Udfordringen for den britiske regering

Alle britiske ministerier er ansvarlige for at gennemgå deres dokumenter. De, der identificeres som havende historisk værdi, skal overføres til The National Archives (TNA), når de er 20 år gamle, i henhold til kravene i Public Records Act 1958 (PRA).

Et vigtigt trin i denne proces er et Sensitivity Review. Dette sikrer, at overførte dokumenter ikke indeholder oplysninger, der kan forårsage skade på andre eller medføre risici for den britiske regering.

Den digitale tidsalders begyndelse

De fleste af de primære britiske ministerier begyndte at gå digitalt omkring år 2004, og nogle ministerier og agenturer har kun eksisteret i en digital æra (selvom de stadig producerer noget papir). Dette betyder, at mange af de dokumenter, der er omfattet af PRA, nu kun eksisterer i digitalt format. Disse omfatter en bred vifte af oplysninger fra strukturerede datasæt til e-mails, Word-dokumenter og regneark.

Omfanget og mangfoldigheden af disse digitale oplysninger betyder, at det næsten er umuligt at identificere og udvælge dokumenter af værdi ved at bruge den traditionelle tilgang om kun at bruge mennesker til arbejdet. Ministerierne er begyndt at kigge på tre nøglespørgsmål:

Kan teknologier med kunstig intelligens (AI) eller Machine Learning (ML) fremskynde og forenkle klassificerings- og gennemgangsprocessen af digitale dokumenter?
Hvor effektivt kan denne teknologi sortere dokumenter af værdi og flygtige data eller duplikerede dokumenter uden værdi?
Er det muligt at få alt ind i et enkelt system, når først systemet er valgt?

For at støtte regeringen i deres udfordring sammensatte TNA den kunstige intelligens til Digital Selection-projektet. Projektet har til formål at lære mere om eksisterende AI-værktøjer, der kan bruges til at udføre vurdering af og udvælgelse fra den 'digitale bunke' af dokumenter, e-mails, datasæt og andre slags oplysninger, der opbevares på tværs af regeringen.

Udvikling af kunstig intelligens til digital udvælgelse

"I betragtning af udfordringens betydning og kompleksitet besluttede TNA at køre et pilotprogram for at sikre, at alle behandlingsværktøjer var i stand til at opnå de nødvendige niveauer af nøjagtighed og kontrol. Det var også nødvendigt med en partner med dokumenterede bedrifter inden for sikker og effektiv håndtering af store, komplekse projekter."

TNA udførte en gennemgang af tilgængelige værktøjer for at identificere mellem tre og fem, der skulle testes dybdegående med et sæt af deres egne virksomhedsdokumenter. Planen var at finde ud af, hvordan værktøjerne klarer sig med at identificere arkivalier, der bør udvælges til permanent bevaring, og dem der ikke bør. Derudover ønskede TNA at hjælpe ministerierne med at bruge AI til udvælgelse. Dette indebar at identificere, hvor disse teknikker kunne inkorporeres i processen eller arbejdsgangen med at udvælge digitale arkivalier til overførsel til TNA.

En veletableret relation

Iron Mountain har allerede en lang og veletableret relation til TNA, såvel som nogle af den britiske regerings største ministerier, efter at have understøttet deres overførsel af papirdokumenter i stor skala i en årrække. Iron Mountain tilbyder også InSight™-tjenester, herunder Intelligent Document Processing, der kombinerer Iron Mountain-indholdsanalyse, datastyring og informationsstyringsekspertise med Machine Learning (ML) og kunstig intelligens (AI).

Iron Mountain blev udvalgt til at deltage i AI til Digital Selection-projektet for at forstå effektiviteten af AI i processen med digital udvælgelse.

Administration af flere filformater

Iron Mountain-værktøjerne er i stand til at håndtere et bredt udvalg af medieformater, og dette var essentielt, da mere end 100 forskellige filtyper skulle behandles i proof of concept-undersøgelsen, herunder lyd- og videodokumenter samt tekstbaserede dokumenter. Nogle af de mest obskure formater blev sat på bænken med henblik på afprøvningen, men det faktiske antal filer, der faldt uden for undersøgelsen, var lille – færre end 10%. De inkluderede filer i proof of concept blev derefter indlæst i Iron Mountains indholdsserviceplatform til analyse.

Hvad indebar løsningen?

Klarlægning af, hvad der skulle overføres

Som en del af projektet forsynede TNA Iron Mountain med mærkede og umærkede datasæt for at demonstrere InSightTM’s iboende AI-egenskaber i forhold til identificering af dokumenter, der er relevante for udvælgelseskriterierne.

Fjernelse af følsomme data

Selv med dokumenter, der gøres tilgængelige for offentligheden, skal der være et trin, hvor følsomme oplysninger, der ikke er godkendt til frigivelse, kan fjernes. I en papirbaseret verden er redigering af information en fysisk proces, der finder sted som del af en menneskestyret gennemgang - dokumenter markeres eller redigeres i hånden. De digitale værktøjer har en anden tilgang – de slører ord eller sætninger og roder indhold sammen, hvor det er relevant.

Trin til succes

Til afprøvningen indlæste Iron Mountain først de 17.000 testdokumenter i Googles cloud bucket storage. Dokumenterne blev behandlet ved brug af Optical Character Recognition-teknologi for at gøre dem fuldt søgbare. InSight™ Intelligent Document Processing-platformen klassificerede dem derefter i 20 prædefinerede kategorier ved brug af Natural Language Processing (NLP) – en softwareproces, der kan tyde indholdet af et dokument og de kontekstuelle nuancer af det sprog, der bruges. Dette gjorde det muligt for platformen at uddrage oplysningerne i filerne nøjagtigt og bygge associationer på tværs af prøvesættet for at sikre, at meningsfuld søgning var mulig.

InSight™’s maskinlæringsfunktioner gav projektteamet mulighed for at træne modellen i en proces med gentagelser i løbet af projektet. I sidste ende opnåede værktøjet en F1-score på over 85%. Følgende resultater blev også opnået:

Identificering af dubletter til bortskaffelse
Identificering af kandidater til permanent bevaring
Udvinding af enheder, herunder organisationer og personer
Filanalyse, herunder indholdsoversigt, aldersoversigt m.m.
Average Precision og RecAll scores

Vellykket proof of concept

InSight™ leverede det nødvendige niveau af funktionalitet, dokumentklassificering og duplikatdetektering, og Iron Mountain er glade for at støtte TNA med dette program af britisk national interesse. Løsningen kan nu bruges på tværs af offentlige myndigheder til at fremskynde overførslen af dokumenter fra alle ministerier på ukompliceret vis.

Download dokumentet for at læse hele historien på engelsk.