Сase Study Οργανισμού The National Archives: Επιτάχυνση μετασχηματισμού των ψηφιακών αρχείων με χρήση τεχνητής νοημοσύνης

Ιστορίες επιτυχίας των πελατών μας

Η Iron Mountain αξιοποίησε τις τελευταίες εξελίξεις στον τομέα της Τεχνητής Νοημοσύνης (AI) και της Μηχανικής Μάθησης (ML) για να εκπαιδεύσει το σύστημά της ώστε να αναγνωρίζει τα υποψήφια αρχεία για μόνιμη διατήρηση, να εντοπίζει αντίγραφα προς απόρριψη, να εξάγει φορείς και να παρέχει ανάλυση αρχείων.

28 Ιουλίου 20228 λεπτά
Сase Study Οργανισμού The National Archives: Επιτάχυνση μετασχηματισμού των ψηφιακών αρχείων με χρήση τεχνητής νοημοσύνης

Προκληση

Η κυβέρνηση του Ηνωμένου Βασιλείου έπρεπε να βρει έναν αποτελεσματικό τρόπο χειρισμού της πρώτης παρτίδας εγγράφων από την απαρχή της ψηφιακής εποχής. Αυτά επρόκειτο να αποθηκευτούν στον οργανισμό The National Archives σύμφωνα με τον κανόνα της 20ετίας για τη διατήρηση αρχείων ιστορικής αξίας.
Icon
Icon

Λυση

Η Iron Mountain αξιοποίησε τις τελευταίες εξελίξεις στον τομέα της Τεχνητής Νοημοσύνης (AI) και της Μηχανικής Μάθησης (ML) για να εκπαιδεύσει το σύστημά της ώστε να αναγνωρίζει τα υποψήφια αρχεία για μόνιμη διατήρηση, να εντοπίζει αντίγραφα προς απόρριψη, να εξάγει φορείς και να παρέχει ανάλυση αρχείων.

 

Αποτελεσματα

Οι δυνατότητες AI και ML θα επιτρέψουν στις κυβερνητικές υπηρεσίες να μεταφέρουν με σιγουριά αρχεία πολύ ταχύτερα και αποτελεσματικότερα από ό,τι αν επεξεργάζονταν τον ίδιο όγκο υλικού χωρίς την προσφυγή σε αυτά τα εργαλεία.

Η προκληση που αντιμετωπιζει η κυβερνηση

Όλες οι κυβερνητικές υπηρεσίες του Ηνωμένου Βασιλείου είναι υπεύθυνες για την επανεξέταση των αρχείων τους. Τα αρχεία που χαρακτηρίζονται ως ιστορικής αξίας πρέπει να μεταφερθούν στον οργανισμό The National Archives (TNA) μόλις συμπληρώσουν τα 20 έτη, σύμφωνα με τις απαιτήσεις του νόμου περί δημοσίων αρχείων του 1958 (PRA).

Ένα βασικό βήμα σε αυτήν τη διαδικασία είναι ο έλεγχος ευαισθησίας. Με τον τρόπο αυτό διασφαλίζεται ότι τα μεταφερόμενα αρχεία δεν περιέχουν πληροφορίες που ενδέχεται να προκαλέσουν βλάβη σε άλλους ή κίνδυνο για τη φήμη της κυβέρνησης του Ηνωμένου Βασιλείου.

Η απαρχή της ψηφιακής εποχής

Οι περισσότερες από τις κύριες κυβερνητικές υπηρεσίες του Ηνωμένου Βασιλείου άρχισαν να υιοθετούν το μοντέλο της ψηφιακής εργασίας γύρω στο 2004. Ορισμένες υπηρεσίες και οργανισμοί έχουν υπάρξει μόνο στην ψηφιακή εποχή (αν και εξακολουθούν να δημιουργούν κάποια έγχαρτα έγγραφα). Αυτό σημαίνει ότι πολλά από τα αρχεία που υπόκεινται στον PRA υπάρχουν πλέον μόνο σε ψηφιακή μορφή. Αυτά περιλαμβάνουν ένα ευρύ φάσμα πληροφοριών, από δομημένα σύνολα δεδομένων έως email, έγγραφα word και λογιστικά φύλλα.

Η κλίμακα και η ποικιλία αυτών των ψηφιακών πληροφοριών σημαίνει ότι ο εντοπισμός και η επιλογή πολύτιμων αρχείων είναι σχεδόν αδύνατη με την παραδοσιακή προσέγγιση «μόνο με ανθρώπινη προσπάθεια». Οι κυβερνητικές υπηρεσίες αρχίζουν να εξετάζουν τρία βασικά ερωτήματα:

  • Μπορούν οι τεχνολογίες τεχνητής νοημοσύνης (AI) ή μηχανικής μάθησης (ML) να επιταχύνουν και να απλοποιήσουν τη διαδικασία ταξινόμησης και αναθεώρησης των ψηφιακών αρχείων;
  • Πόσο αποτελεσματικά μπορεί αυτή η τεχνολογία να ταξινομήσει πολύτιμα αρχεία και τα εφήμερα δεδομένα ή τα διπλότυπα αρχεία που δεν έχουν καμία αξία;
  • Είναι εφικτό να συγκεντρωθούν τα πάντα σε ένα ενιαίο σύστημα αφού επιλεγούν;

Για να βοηθήσει την κυβέρνηση σε αυτήν την πρόκληση, ο οργανισμός TNA δημιούργησε το έργο AI for Digital Selection (Τεχνητή νοημοσύνη για ψηφιακή επιλογή). Στόχος του έργου είναι να μάθει περισσότερα για τα υπάρχοντα εργαλεία τεχνητής νοημοσύνης που θα μπορούσαν να χρησιμοποιηθούν για την αξιολόγηση και την επιλογή ανάμεσα στον «ψηφιακό σωρό» εγγράφων, email, συνόλων δεδομένων κι άλλων τύπων πληροφοριών που διατηρεί η κυβέρνηση.

Αναπτυξη της τεχνητης νοημοσυνης για ψηφιακη επιλογη

Δεδομένης της σημασίας και της πολυπλοκότητας της πρόκλησης, ο οργανισμός The National Archives αποφάσισε να τρέξει ένα πιλοτικό πρόγραμμα που θα διασφάλιζε ότι τα εργαλεία επεξεργασίας είναι ικανά να επιτύχουν τα απαιτούμενα επίπεδα ακρίβειας και ελέγχου. Χρειαζόταν επίσης έναν συνεργάτη με αποδεδειγμένη εμπειρία στον ασφαλή και αποτελεσματικό χειρισμό μεγάλων και πολύπλοκων έργων
Ed IrvingBusiness Development Director, Central Government, Iron Mountain

Αφού διενήργησε αξιολόγηση των διαθέσιμων εργαλείων και κατέληξε σε τρία έως πέντε από αυτά, ο TNA τα υπέβαλε σε εντατικές δοκιμές χρησιμοποιώντας ένα σύνολο από τα δικά του εταιρικά αρχεία. Σκοπός ήταν να διαπιστωθεί πώς ανταποκρίνονται τα εργαλεία στον εντοπισμό των αρχείων που θα έπρεπε να επιλεγούν για μόνιμη διατήρηση και των αρχείων που δεν θα έπρεπε. Επιπλέον, ο TNA ήθελε να συνδράμει τις κυβερνητικές υπηρεσίες στη χρήση της τεχνητής νοημοσύνης. Στο πλαίσιο αυτό, θα εντοπίζονταν τα σημεία όπου οι τεχνικές αυτές θα μπορούσαν να ενσωματωθούν στη διαδικασία ή στη ροή εργασιών της επιλογής ψηφιακών αρχείων για μεταφορά στον οργανισμό The National Archives.

Μια καλά εδραιωμένη σχέση συνεργασίας

Η Iron Mountain έχει ήδη εδραιώσει μια μακροχρόνια σχέση συνεργασίας με τον TNA, καθώς και με μερικές από τις μεγαλύτερες υπηρεσίες της βρετανικής κυβέρνησης, υποστηρίζοντας εδώ και αρκετά χρόνια τη μαζική μεταφορά έγχαρτων φακέλων. Η εταιρεία προσφέρει επίσης υπηρεσίες InSight™, οι οποίες περιλαμβάνουν έξυπνη επεξεργασία εγγράφων που συνδυάζει την ανάλυση περιεχομένου, τη διαχείριση δεδομένων και την τεχνογνωσία διαχείρισης πληροφοριών της Iron Mountain με δυνατότητες μηχανικής μάθησης (ML) και τεχνητής νοημοσύνης (AI).

Η Iron Mountain επιλέχθηκε να συμμετάσχει στο έργο AI for Digital Selection, στο πλαίσιο του οποίου κλήθηκε να κατανοήσει την αποτελεσματικότητα της τεχνητής νοημοσύνης στη διαδικασία της ψηφιακής επιλογής.

Διαχείριση πολλαπλών μορφών αρχείων

Τα εργαλεία της Iron Mountain είναι ικανά να χειρίζονται μια ευρεία επιλογή μορφότυπων πολυμέσων, κάτι που ήταν απαραίτητο, Τα εργαλεία της Iron Mountain είναι ικανά να χειρίζονται μια ευρεία επιλογή μορφότυπων πολυμέσων, κάτι που ήταν απαραίτητο, αρχείων ήχου και βίντεο και εγγράφων βασισμένων σε κείμενο. Ορισμένοι από τους πιο ασαφείς μορφότυπους παραγκωνίστηκαν για τους σκοπούς της δοκιμής, αλλά ο πραγματικός αριθμός των αρχείων που έμειναν εκτός μελέτης ήταν μικρός – λιγότερο από 10%. Τα αρχεία που συμπεριλήφθηκαν στη μελέτη «φορτώθηκαν» στη συνέχεια στην πλατφόρμα υπηρεσιών περιεχομένου της Iron Mountain για ανάλυση.

Τι περιeλαμβανε η λυση; 

Εξακρίβωση για το τι χρειάζεται να μεταφερθεί

Στο πλαίσιο του έργου, ο TNA παρείχε στην Iron Mountain σύνολα δεδομένων (με και χωρίς ετικέτες). Έτσι, αξιοποιήθηκαν οι δυνατότητες τεχνητής νοημοσύνης που είναι εγγενείς στο InSightTM για τον εντοπισμό εγγραφών σχετικών με τα κριτήρια επιλογής.

Διαγραφή ευαίσθητων δεδομένων

Ακόμη και με τα αρχεία που διατίθενται στο κοινό, πρέπει να υπάρχει ένα στάδιο στο οποίο οι ευαίσθητες πληροφορίες που δεν έχουν εγκριθεί για δημοσιοποίηση να μπορούν να αφαιρεθούν. Σε έναν έγχαρτο κόσμο, η διαγραφή πληροφοριών είναι μια φυσική διαδικασία που λαμβάνει χώρα στο πλαίσιο μιας ανθρώπινης αναθεώρησης. Τα έγγραφα επισημαίνονται ή υποβάλλονται σε επεξεργασία με το χέρι. Τα εργαλεία της ψηφιακής εγκληματολογικής τεχνολογίας ακολουθούν μια διαφορετική προσέγγιση. Μπερδεύουν λέξεις ή προτάσεις διαστρεβλώνοντας το περιεχόμενο όπου χρειάζεται.

Τα βήματα προς την επιτυχία

Για τη δοκιμή, η Iron Mountain φόρτωσε πρώτα τα 17.000 δοκιμαστικά έγγραφα στον αποθηκευτικό χώρο του cloud της Google. Τα έγγραφα υποβλήθηκαν σε επεξεργασία με τη χρήση τεχνολογίας οπτικής αναγνώρισης χαρακτήρων για να είναι δυνατή η πλήρης αναζήτησή τους. Στη συνέχεια, η πλατφόρμα έξυπνης επεξεργασίας εγγράφων InSight™ τα ταξινόμησε σε 20 προκαθορισμένες κατηγορίες χρησιμοποιώντας την επεξεργασία φυσικής γλώσσας (NLP), μια διαδικασία με χρήση λογισμικού που μπορεί να αποκρυπτογραφήσει το περιεχόμενο ενός εγγράφου και τις αποχρώσεις του πλαισίου της γλώσσας που χρησιμοποιείται. Αυτό επέτρεψε στην πλατφόρμα να εξαγάγει με ακρίβεια τις πληροφορίες που περιέχονται στα αρχεία και να δημιουργήσει συσχετίσεις σε όλο το σύνολο των δειγμάτων, ώστε να είναι δυνατή η ουσιαστική αναζήτηση.

Οι δυνατότητες μηχανικής μάθησης του InSight™ επέτρεψαν στην ομάδα έργου να εκπαιδεύσει το μοντέλο σε μια επαναληπτική διαδικασία κατά τη διάρκεια του έργου. Τελικά, το εργαλείο πέτυχε βαθμολογία F1 άνω του 85%. Επίσης προέκυψαν τα ακόλουθα αποτελέσματα:

  • Εντοπισμός αντιγράφων προς απόρριψη
  • Προσδιορισμός υποψήφιων αρχείων για μόνιμη διατήρηση
  • Εξαγωγή οντοτήτων, συμπεριλαμβανομένων οργανισμών και ατόμων
  • Ανάλυση αρχείων, συμπεριλαμβανομένης της περίληψης περιεχομένου, της περίληψης ηλικίας κ.λπ.
  • Μέσες βαθμολογίες ακρίβειας και ανάκλησης

Επιτυχής απόδειξη των εικαζόμενων χαρακτηριστικών

Το InSight™ παρείχε το απαιτούμενο επίπεδο λειτουργικότητας, ταξινόμησης εγγράφων και ανίχνευσης αντιγράφων. Η υποστήριξη του οργανισμού The National Archive από την Iron Mountain με αυτό το πρόγραμμα εθνικού ενδιαφέροντος είναι ανεκτίμητη. Η λύση μπορεί πλέον να χρησιμοποιηθεί σε όλους τους τομείς διακυβέρνησης για να επιταχύνει τη μετάβαση εγγράφων από όλες τις κρατικές υπηρεσίες μέσω απλών διαδρομών σύναψης συμβάσεων-πλαισίων.

Elevate the power of your work

Επικοινωνήστε μαζί μας για να μάθετε περισσότερα.

Ξεκινήστε