Studiul de caz privind Arhivele Naționale: Accelerarea tranziției documentelor digitale cu ajutorul Inteligenței Artificiale

Povești de succes ale clienților

Guvernul britanic trebuia să găsească o modalitate eficientă de a gestiona primul lot de documente din zorii erei digitale. Acestea urmau să fie plasate la Arhivele Naționale în conformitate cu regula de 20 de ani pentru conservarea documentelor cu valoare istorică.

28 iulie 20228 min
The National Archives Case Study: Accelerating Transition Of Digital Records Using Artificial Intelligence
Provocare

Guvernul britanic trebuia să găsească o modalitate eficientă de a gestiona primul lot de documente din zorii erei digitale. Acestea urmau să fie plasate la Arhivele Naționale în conformitate cu regula de 20 de ani pentru conservarea documentelor cu valoare istorică.

Soluție

Iron Mountain a valorificat cele mai recente evoluții în domeniul inteligenței artificiale (AI) și învățării programate (ML) pentru a-și instrui sistemul să recunoască documentele care pot fi conservarea permanentă, să detecteze duplicatele pentru eliminare, să extragă entitățile și să efectueze analiza fișierelor.

Rezultate

Capabilitățile de inteligență artificială și învățare programată vor permite departamentelor guvernamentale să transfere cu încredere dosare mult mai rapid și mai eficient decât în cazul în care se lucrează cu același volum de materiale fără a recurge la aceste instrumente.

Provocarea Cu Care Se Confruntă Guvernul

Toate departamentele guvernamentale din Regatul Unit sunt responsabile pentru revizuirea dosarelor pe care le dețin. Cele identificate ca având valoare istorică trebuie să fie transferate la Arhivele Naționale (AN) odată ce au împlinit 20 de ani, în conformitate cu cerințele Legii din 1958 privind documentele cu caracter public (PRA).

O etapă cheie în acest proces este o analiză a sensibilității. Aceasta asigură că documentele transferate nu conțin informații care ar putea cauza prejudicii altor persoane sau ar putea reprezenta un risc pentru reputația guvernului britanic.

Zorii erei digitale

Majoritatea principalelor departamente guvernamentale britanice au început să treacă la lucrul în format digital în jurul anului 2004; unele departamente și agenții au existat doar în era digitală (deși generează încă unele lucrul în format digital în jurul anului 2004; unele departamente și agenții documente pe hârtie). Acest lucru înseamnă că multe dintre documentele care fac obiectul PRA există acum numai în format digital. Printre acestea se numără o gamă largă de informații, de la seturi de date structurate la e-mailuri, documente Word și foi de calcul.

Amploarea și varietatea acestor informații digitale înseamnă că identificarea și selectarea înregistrărilor de valoare este aproape imposibilă utilizând abordarea tradițională „doar cu efort uman”. Departamentele guvernamentale încep să analizeze trei întrebări cheie:

  • Pot tehnologiile de inteligență artificială (AI) sau învățare programată (ML) să accelereze și să simplifice procesul de clasificare și de examinare a documentelor digitale?
  • Cât de eficient poate această tehnologie să clasifice înregistrările de valoare și datele efemere sau fișierele duplicate care nu au nicio valoare?
  • Este fezabil să se preia totul într-un singur sistem odată selectat?

În sprijinul provocării guvernamentale, Arhivele Nationale (AN) a utilizat inteligenta artificiala (AI) pentru proiectul de selecție digitală. Proiectul își propune să afle mai multe informații despre instrumentele de inteligență artificială existente care ar putea fi utilizate pentru a realiza evaluarea și selecția din „mormanul digital” de documente, e-mailuri, seturi de date și alte tipuri de informații deținute de departamentele guvernamentale.

Dezvoltarea Ai Pentru Selecția Digitală

„Având în vedere importanța și complexitatea acestei provocări, Arhivele Naționale au decis să deruleze un program pilot pentru a se asigura că toate instrumentele de procesare erau capabile să atingă nivelurile necesare de acuratețe și control. De asemenea, aveau nevoie de un partener cu o experiență dovedită în gestionarea sigură și eficientă a unor proiecte mari și complexe.”

Arhivele Nationale (AN) a efectuat o analiză a instrumentelor disponibile pentru a identifica între trei și cinci instrumente în vederea testării aprofundate cu un set de înregistrări corporative proprii. Planul era de a afla cum se descurcă instrumentele în identificarea documentelor care ar trebui să fie selectate pentru păstrare permanentă și a celor care nu ar trebui să fie selectate. În plus, Arhivele Nationale (AN) a dorit să ajute departamentele guvernamentale în utilizarea AI pentru selecție. Aceasta a presupus identificarea domeniilor în care aceste tehnici ar putea fi încorporate în procesul sau fluxul de lucru de selectare a documentelor digitale pentru transferul la Arhivele Naționale.

O relație bine stabilită

Iron Mountain are deja o relație îndelungată și bine stabilită cu Arhivele Nationale ( AN ), precum și cu unele dintre cele mai mari departamente ale Guvernului britanic, sprijinind transferul de documente pe suport de hârtie la scară largă de mai mulți ani. Compania oferă, de asemenea, serviciile InSight™, care includ procesarea inteligentă a documentelor, combinând expertiza Iron Mountain în analiza conținutului, în gestionarea datelor și în guvernanța informațiilor cu capabilitățile de învățare programată (ML) și cu capabilitățile de inteligență artificială (AI).

Iron Mountain a fost selectată pentru a participa la proiectul AI for Digital Selection, pentru a înțelege eficiența AI în procesul de selecție digitală.

Gestionarea mai multor formate de fișiere

Instrumentele Iron Mountain sunt capabile să gestioneze o selecție largă de formate media, ceea ce a fost esențial, deoarece existau peste 100 de tipuri de fișiere diferite care trebuiau procesate în cadrul studiului de validare a conceptului, inclusiv documente audio, documente video și documente bazate pe text. Unele dintre cele mai obscure formate au fost lăsate deoparte pentru scopurile testului, dar numărul real de fișiere care nu au fost luate în considerare în cadrul studiului a fost mic – mai puțin de 10%. Fișierele incluse în testul de validare au fost apoi încărcate pe platforma de servicii de conținut Iron Mountain pentru analiză.

Ce A Presupus Soluția?

Identificarea datelor care trebuiau transferate

Ca parte a proiectului, Arhivele Nationale (AN) a furnizat pentru Iron Mountain seturi de date etichetate și neetichetate pentru a demonstra capabilitățile de inteligență artificială intrinseci ale InSightTM în identificarea înregistrărilor relevante pentru criteriile de selecție.

Eliminarea datelor sensibile

Chiar și în cazul fișierelor care sunt puse la dispoziția publicului, trebuie să existe o etapă în care să fie eliminate informațiile sensibile a căror divulgare nu este autorizată. Într-o lume bazată pe hârtie, redactarea informațiilor este un proces fizic care are loc ca parte a unei revizuiri conduse de oameni – documentele sunt marcate sau editate manual. Instrumentele tehnologice de expertiză digitală au o abordare diferită – acestea estompează cuvinte sau propoziții, amestecând conținutul atunci când este cazul.

Pași către succes

Pentru testare, Iron Mountain a încărcat mai întâi cele 17 000 de documente de test în sistemul de stocare cu containere software Google. Documentele au fost procesate cu ajutorul tehnologiei de recunoaștere optică a caracterelor pentru a le face complet disponibile pentru căutare. Platforma de procesare inteligentă a documentelor InSight™ le-a clasificat apoi în 20 de categorii predefinite, utilizând procesarea limbajului natural (NLP), un proces software care poate descifra conținutul unui document și nuanțele contextuale ale limbajului utilizat. Acest lucru a permis platformei să extragă cu precizie informațiile conținute în fișiere și să creeze asocieri în întregul set de eșantioane pentru a asigura posibilitatea unei căutări semnificative.

Capabilitățile de învățare programată ale InSight au permis echipei de proiect să instruiască modelul într-un proces iterativ pe parcursul proiectului. În final, instrumentul a obținut un scor F1 de peste 85%. Provocarea următoarele rezultate:

  • Duplicate identificate în vederea eliminării
  • Identificarea înregistrărilor candidate pentru conservarea permanentă
  • Entități, inclusiv organizații și persoane, extrase
  • Analiza fișierelor, inclusiv rezumatul conținutului, rezumatul vârstei etc.
  • Punctaje medii de precizie și de restabilire

Validarea cu succes a conceptului

InSight a oferit nivelul necesar de funcționalitate, clasificare a documentelor și detectare a duplicatelor. Iron Mountain are plăcerea de a sprijini Arhivele Naționale cu acest program de interes național. Soluția poate fi utilizată acum în întreaga administrație publică pentru a accelera tranziția documentelor de la toate departamentele guvernamentale prin intermediul unor rute cadru de achiziții directe.