Acelerando la transición de los registros digitales a los archivos nacionales mediante la inteligencia artificial

Casos de éxito de clientes

El gobierno del Reino Unido necesitaba encontrar una forma eficaz de gestionar el primer lote de documentos del inicio de la era digital. Estos documentos debían depositarse en los Archivos Nacionales en virtud de la norma de 20 años para la conservación de registros de valor histórico.

19 de agosto de 20228 mins
The National Archives Case Study- A woman looking at documents
Reto

El gobierno del Reino Unidonecesitaba encontrar unaforma eficaz de gestionar elprimer lote de documentos delinicio de la era digital. Estosdocumentos debían depositarseen los Archivos Nacionalesen virtud de la norma de 20años para la conservación deregistros de valor histórico.

Solución

Iron Mountain aprovechó laúltima tecnología en InteligenciaArtificial (IA) y AprendizajeAutomático (ML) para entrenar asu sistema en el reconocimientode registros candidatos a lapreservación permanente, ladetección de duplicados parasu eliminación, la extracción deentidades y el análisis de archivos.

Resultados

Las capacidades deIA y ML permitirána los departamentosgubernamentales transferircon confianza los registrosde forma mucho más rápiday eficiente que trabajandocon el mismo volumen demateriales sin recurrir a estasherramientas.

El reto del gobierno

Todos los departamentos gubernamentales del Reino Unido sonresponsables de revisar sus registros. Los que se identifican comode valor histórico deben ser transferidos a los Archivos Nacionalesuna vez que cumplen 20 años de antigüedad, de acuerdo conlos requisitos de la Ley de Registros Públicos de 1958. Un pasoclave en este proceso es la Revisión de Sensibilidad. Esto aseguraque los registros transferidos no contienen ninguna informaciónsensible que pueda causar daño a otros o riesgo para lareputación del gobierno del Reino Unido.

El inicio de la era digital

La mayoría de los principales departamentos gubernamentales delReino Unido empezaron a trabajar en formato digital en torno al2004; algunos departamentos y organismos sólo han existido en laera digital (aunque siguen creando algo de papel). Esto significa quemuchos de los registros sujetos a la Ley de Registros Públicos ahorasólo existen en formato digital. Estos incluyen una amplia gamade información, desde conjuntos de datos estructurados hastacorreos electrónicos, documentos de Word y hojas de cálculo.

La escala y variedad de esta información digital significa quela identificación y selección de los registros de valor es casiimposible utilizando el enfoque tradicional de “sólo mano deobra humana”. Los departamentos gubernamentales estánempezando a estudiar 3 cuestiones clave:

  • ¿Pueden las tecnologías de inteligencia artificial (IA) o de aprendizaje automático (ML) acelerar y simplificar el proceso de clasificación y revisión de los archivos digitales?
  • ¿Con qué eficacia puede esta tecnología clasificar los registros de valor y los datos efímeros o los archivos duplicados que no tienen valor?
  • ¿Es factible ingerir todo en un solo sistema una vez seleccionado?

En apoyo del reto gubernamental, los Archivos Nacionaleshan puesto en marcha el proyecto AI for Digital Selection.El objetivo del proyecto es conocer mejor las herramientas deIA existentes que podrían utilizarse para realizar la evaluacióny la selección de los “montones digitales” de documentos,correos electrónicos, conjuntos de datos y otros tipos deinformación que posee la Administración.

Desarrollo de ia para la selección digital

“Dada la importancia y la complejidad del reto, los Archivos Nacionales decidieron llevar a caboun programa piloto para garantizar que las herramientas de procesamiento fueran capacesde alcanzar los niveles de precisión y control requeridos. También necesitaba un socio con unhistorial probado de gestión segura y eficiente de proyectos grandes y complejos.”

Los Archivos Nacionales llevaron a cabo una revisión de las herramientas disponibles para identificar entre3 y 5 con el fin de probarlas en profundidad con un conjunto de sus propios registros corporativos. Elplan consistía en averiguar cómo se comportan las herramientas a la hora de identificar los registros quedeben ser seleccionados para su conservación permanente y los que no. Además, los Archivos Nacionalesquerían ayudar a los departamentos del gobierno en el uso de la IA para la selección. Más concretamentea identificar dónde se podían incorporar estas técnicas en el proceso o flujo de trabajo de la selección dedocumentos de archivo digitales para su transferencia a los Archivos Nacionales.

Una relación bien establecida

Iron Mountain ya tiene una larga y consolidada relación con los Archivos Nacionales, así como con algunosde los departamentos más grandes del gobierno, habiendo facilitado la transferencia de registros en papel aescala durante varios años. La empresa también ofrece los servicios InSight™, que incluyen el procesamientointeligente de documentos combinado con el análisis de contenidos, la gestión de datos y experiencia en lagobernanza de la información con Aprendizaje Automático (ML) e inteligencia artificial (AI).

Iron Mountain fue seleccionada para participar en el proyecto AI for Digital Selection, con el fin decomprender la eficacia de la IA en el proceso de selección digital.

Gestión de múltiples formatos de archivo

Las herramientas de Iron Mountain son capaces de manejar una amplia selección de formatos demedios, lo que era esencial ya que había más de 100 tipos de archivos diferentes para procesar enel estudio de prueba de concepto, incluyendo audio, vídeo y documentos de texto. Algunos de losformatos más oscuros fueron excluidos de la prueba, pero el número real de expedientes que quedaronfuera del estudio fue pequeño: menos del 10%. Los archivos incluidos en la prueba de concepto secargaron en la plataforma de servicios de contenidos de Iron Mountain para su análisis.

¿En qué consistió la solución?

Determinar lo que hay que transferir

Como parte del proyecto, los Archivos Nacionales proporcionaron a Iron Mountain conjuntos de datosetiquetados y no etiquetados para testar las capacidades de IA intrínsecas a InSight en la identificaciónde registros relevantes para los criterios de selección

Eliminación de datos sensibles

Incluso en el caso de los archivos que se ponen a disposición del público, tiene que haber una fase en laque la información sensible que no está autorizada para ser publicada pueda ser eliminada. En un mundobasado en el papel, la redacción de la información es un proceso físico que se lleva a cabo como partede una revisión dirigida por personas: los documentos se marcan o editan a mano. Las herramientasde tecnología forense digital adoptan un enfoque diferente: ofuscan palabras o frases, codificando elcontenido cuando sea necesario.

Pasos para el éxito

Para la prueba, Iron Mountain cargó primero los 17.000 documentos de prueba en el almacenamiento enla nube de Google. Los documentos se procesaron con tecnología de reconocimiento óptico de caracterespara hacerlos totalmente reconocibles. A continuación, la plataforma de procesamiento inteligente dedocumentos InSight™ los clasificó en 20 categorías utilizando el procesamiento del lenguaje natural(PNL), un proceso de software que puede descifrar el contenido de un documento y los maticescontextuales de la lengua utilizada. Esto permitió a la plataforma extraer con precisión la informacióncontenida en los archivos y crear asociaciones en el conjunto de la muestra para garantizar que unabúsqueda fácil y precisa fuese posible.

Las capacidades de aprendizaje automático de InSight permitieron al equipo del proyecto entrenar elmodelo en un proceso iterativo a lo largo del proyecto. Al final, la herramienta obtuvo una puntuación F1superior al 85%. También se obtuvieron los siguientes resultados:

  • Se identificaron los duplicados para eliminarlos
  • Se identificaron los registros candidatos a la conservación permanente
  • Se extrajeron entidades que incluyen organizaciones y personas
  • Se realizaron análisis de expedientes, incluido el resumen de contenido, el resumen de edad, etc.
  • Puntuaciones medias de Precisión y Recall

Prueba de concepto con éxito

InSight proporcionó el nivel de funcionalidad requerido, la clasificación de documentos y la detección deduplicados. Iron Mountain se complace en apoyar a los Archivos Nacionales con este programa de interésnacional. La solución puede utilizarse ahora en toda la administración para acelerar la transición de losdocumentos de todos los departamentos gubernamentales a través de vías directas de adquisición de marcos