1. Η έννοια της κάλυψης δεδομένων
Η κάλυψη δεδομένων είναι επίσης γνωστή ως κάλυψη δεδομένων. Είναι μια τεχνική μέθοδος για τη μετατροπή, την τροποποίηση ή την κάλυψη ευαίσθητων δεδομένων, όπως ο αριθμός κινητού τηλεφώνου, ο αριθμός τραπεζών και άλλες πληροφορίες όταν έχουμε δώσει κανόνες και πολιτικές κάλυψης. Αυτή η τεχνική χρησιμοποιείται κυρίως για να αποφευχθεί η χρήση ευαίσθητων δεδομένων απευθείας σε αναξιόπιστα περιβάλλοντα.
Αρχή κάλυψης δεδομένων: Η κάλυψη δεδομένων θα πρέπει να διατηρεί τα αρχικά χαρακτηριστικά δεδομένων, τους επιχειρηματικούς κανόνες και τη συνάφεια των δεδομένων για να διασφαλιστεί ότι η επακόλουθη ανάπτυξη, δοκιμή και ανάλυση δεδομένων δεν θα επηρεαστεί από την κάλυψη. Εξασφαλίστε τη συνέπεια των δεδομένων και την εγκυρότητα πριν και μετά την κάλυψη.
2. Ταξινόμηση κάλυψης δεδομένων
Η κάλυψη των δεδομένων μπορεί να χωριστεί σε στατική κάλυψη δεδομένων (SDM) και στη δυναμική κάλυψη δεδομένων (DDM).
Στατική κάλυψη δεδομένων (SDM): Η στατική κάλυψη δεδομένων απαιτεί τη δημιουργία μιας νέας βάσης δεδομένων περιβάλλοντος μη παραγωγής για απομόνωση από το περιβάλλον παραγωγής. Τα ευαίσθητα δεδομένα εξάγονται από τη βάση δεδομένων παραγωγής και στη συνέχεια αποθηκεύονται στη βάση δεδομένων μη παραγωγής. Με αυτόν τον τρόπο, τα δεδομένα απευαισθητοποιημένα απομονώνεται από το περιβάλλον παραγωγής, το οποίο ανταποκρίνεται στις επιχειρηματικές ανάγκες και εξασφαλίζει την ασφάλεια των δεδομένων παραγωγής.
Δυναμική κάλυψη δεδομένων (DDM): Χρησιμοποιείται γενικά στο περιβάλλον παραγωγής για την απευαισθητοποίηση ευαίσθητων δεδομένων σε πραγματικό χρόνο. Μερικές φορές, απαιτούνται διαφορετικά επίπεδα κάλυψης για να διαβάσετε τα ίδια ευαίσθητα δεδομένα σε διαφορετικές καταστάσεις. Για παράδειγμα, διαφορετικοί ρόλοι και δικαιώματα μπορούν να εφαρμόσουν διαφορετικά σχήματα κάλυψης.
Αναφορά δεδομένων και προϊόντα κάλυψης προϊόντων δεδομένων
Τέτοια σενάρια περιλαμβάνουν κυρίως προϊόντα παρακολούθησης εσωτερικών δεδομένων ή πινακίδα, προϊόντα δεδομένων εξωτερικών υπηρεσιών και αναφορές που βασίζονται στην ανάλυση δεδομένων, όπως οι εκθέσεις επιχειρήσεων και η ανασκόπηση του έργου.
3. Λύση κάλυψης δεδομένων
Τα κοινά συστήματα κάλυψης δεδομένων περιλαμβάνουν: Ακύρωση, τυχαία τιμή, αντικατάσταση δεδομένων, συμμετρική κρυπτογράφηση, μέση τιμή, μετατόπιση και στρογγυλοποίηση κ.λπ.
Ακύρωση: Η ακύρωση αναφέρεται στην κρυπτογράφηση, την περικοπή ή την απόκρυψη ευαίσθητων δεδομένων. Αυτό το σχήμα συνήθως αντικαθιστά πραγματικά δεδομένα με ειδικά σύμβολα (όπως *). Η λειτουργία είναι απλή, αλλά οι χρήστες δεν μπορούν να γνωρίζουν τη μορφή των αρχικών δεδομένων, τα οποία μπορεί να επηρεάσουν τις επόμενες εφαρμογές δεδομένων.
Τυχαία αξία: Η τυχαία τιμή αναφέρεται στην τυχαία αντικατάσταση ευαίσθητων δεδομένων (οι αριθμοί αντικαθιστούν τα ψηφία, τα γράμματα αντικαθιστούν τα γράμματα και τους χαρακτήρες να αντικαταστήσουν τους χαρακτήρες). Αυτή η μέθοδος κάλυψης θα εξασφαλίσει τη μορφή ευαίσθητων δεδομένων σε κάποιο βαθμό και θα διευκολύνει την επακόλουθη εφαρμογή δεδομένων. Μπορεί να χρειαστούν τα λεξικά κάλυψης για μερικές σημαντικές λέξεις, όπως ονόματα ανθρώπων και τόπων.
Αντικατάσταση δεδομένων: Η αντικατάσταση δεδομένων είναι παρόμοια με την κάλυψη μηδενικών και τυχαίων τιμών, εκτός από το ότι αντί να χρησιμοποιεί ειδικούς χαρακτήρες ή τυχαίες τιμές, τα δεδομένα κάλυψης αντικαθίστανται με μια συγκεκριμένη τιμή.
Συμμετρική κρυπτογράφηση: Η συμμετρική κρυπτογράφηση είναι μια ειδική αναστρέψιμη μέθοδος κάλυψης. Κρυπτογραφεί ευαίσθητα δεδομένα μέσω πλήκτρων κρυπτογράφησης και αλγορίθμων. Η μορφή κρυπτογράφου είναι σύμφωνη με τα αρχικά δεδομένα σε λογικούς κανόνες.
Μέσος: Το μέσο σχήμα χρησιμοποιείται συχνά σε στατιστικά σενάρια. Για αριθμητικά δεδομένα, υπολογίζουμε πρώτα τον μέσο όρο τους και στη συνέχεια διανέμουμε τυχαία τις απευαισθητοποιημένες τιμές γύρω από τον μέσο όρο, διατηρώντας έτσι το άθροισμα της σταθεράς δεδομένων.
Αντιστάθμιση και στρογγυλοποίηση: Αυτή η μέθοδος αλλάζει τα ψηφιακά δεδομένα με τυχαία μετατόπιση. Η στρογγυλοποίηση αντιστάθμισης εξασφαλίζει την κατά προσέγγιση αυθεντικότητα του εύρους διατηρώντας παράλληλα την ασφάλεια των δεδομένων, η οποία είναι πιο κοντά στα πραγματικά δεδομένα από τα προηγούμενα προγράμματα και έχει μεγάλη σημασία στο σενάριο της μεγάλης ανάλυσης δεδομένων.
Το πρότυπο μοντέλο "ML-NPB-5660"Για την κάλυψη δεδομένων
4. Τεχνικές καλύμματος δεδομένων που χρησιμοποιούνται συνήθως
(1). Στατιστικές τεχνικές
Δειγματοληψία δεδομένων και συσσωμάτωση δεδομένων
- Δειγματοληψία δεδομένων: Η ανάλυση και η αξιολόγηση του αρχικού συνόλου δεδομένων επιλέγοντας ένα αντιπροσωπευτικό υποσύνολο του συνόλου δεδομένων είναι μια σημαντική μέθοδος για τη βελτίωση της αποτελεσματικότητας των τεχνικών απο-ταυτοποίησης.
- Συγκεντρώσεις δεδομένων: Ως συλλογή στατιστικών τεχνικών (όπως η άθροιση, η μέτρηση, ο μέσος όρος, η μέγιστη και η ελάχιστη) που εφαρμόζονται στα χαρακτηριστικά στα microdata, το αποτέλεσμα είναι αντιπροσωπευτικό όλων των αρχείων στο αρχικό σύνολο δεδομένων.
(2). Κρυπτογράφηση
Η κρυπτογραφία είναι μια κοινή μέθοδος για την απευαισθητοποίηση ή την ενίσχυση της αποτελεσματικότητας της απευαισθητοποίησης. Διαφορετικοί τύποι αλγορίθμων κρυπτογράφησης μπορούν να επιτύχουν διαφορετικά αποτελέσματα απευαισθητοποίησης.
- Νότιη κρυπτογράφηση: Μη τυχαία συμμετρική κρυπτογράφηση. Συνήθως επεξεργάζεται δεδομένα ID και μπορεί να αποκρυπτογραφήσει και να αποκαταστήσει το κρυπτογράφημα στο αρχικό αναγνωριστικό όταν είναι απαραίτητο, αλλά το κλειδί πρέπει να προστατεύεται σωστά.
- Μη αναστρέψιμη κρυπτογράφηση: Η λειτουργία κατακερματισμού χρησιμοποιείται για την επεξεργασία δεδομένων, τα οποία χρησιμοποιούνται συνήθως για δεδομένα ID. Δεν μπορεί να αποκρυπτογραφηθεί άμεσα και η σχέση χαρτογράφησης πρέπει να αποθηκευτεί. Επιπλέον, λόγω της λειτουργίας της λειτουργίας κατακερματισμού, μπορεί να συμβεί σύγκρουση δεδομένων.
- Ομομορφική κρυπτογράφηση: Χρησιμοποιείται ο ομομορφικός αλγόριθμος κρυπτογράφου. Το χαρακτηριστικό του είναι ότι το αποτέλεσμα της λειτουργίας του κρυπτογράφου είναι το ίδιο με αυτό της λειτουργίας του κείμενο μετά την αποκρυπτογράφηση. Ως εκ τούτου, χρησιμοποιείται συνήθως για την επεξεργασία αριθμητικών πεδίων, αλλά δεν χρησιμοποιείται ευρέως για λόγους απόδοσης.
(3). Τεχνολογία συστήματος
Η τεχνολογία καταστολής διαγράφει ή προστατεύει τα στοιχεία δεδομένων που δεν πληρούν την προστασία της ιδιωτικής ζωής, αλλά δεν τα δημοσιεύουν.
- κάλυψη: αναφέρεται στην πιο συνηθισμένη μέθοδο απευαισθητοποίησης για την κάλυψη της τιμής χαρακτηριστικών, όπως ο αριθμός αντίπαλου, η ταυτότητα επισημαίνεται με έναν αστερίσκο ή η διεύθυνση είναι περικομμένη.
- Τοπική καταστολή: αναφέρεται στη διαδικασία διαγραφής συγκεκριμένων τιμών χαρακτηριστικών (στήλες), αφαιρώντας τα μη βασικά πεδία δεδομένων.
- Καταγραφή καταγραφής: αναφέρεται στη διαδικασία διαγραφής συγκεκριμένων αρχείων (σειρές), διαγραφή μη βασικών αρχείων δεδομένων.
(4). Τεχνολογία ψευδώνυμου
Η Pseudomanning είναι μια τεχνική απο-ταυτοποίησης που χρησιμοποιεί ένα ψευδώνυμο για να αντικαταστήσει ένα άμεσο αναγνωριστικό (ή άλλο ευαίσθητο αναγνωριστικό). Οι τεχνικές ψευδώνυμου δημιουργούν μοναδικά αναγνωριστικά για κάθε ατομικό υποκείμενο πληροφοριών, αντί για άμεσα ή ευαίσθητα αναγνωριστικά.
- Μπορεί να δημιουργήσει τυχαίες τιμές ανεξάρτητα για να αντιστοιχεί στο αρχικό αναγνωριστικό, να αποθηκεύσει τον πίνακα χαρτογράφησης και να ελέγχει αυστηρά την πρόσβαση στον πίνακα χαρτογράφησης.
- Μπορείτε επίσης να χρησιμοποιήσετε κρυπτογράφηση για να παράγετε ψευδώνυμα, αλλά πρέπει να διατηρήσετε σωστά το κλειδί αποκρυπτογράφησης.
Αυτή η τεχνολογία χρησιμοποιείται ευρέως σε περίπτωση μεγάλου αριθμού ανεξάρτητων χρηστών δεδομένων, όπως το OpenID στο σενάριο ανοικτής πλατφόρμας, όπου διαφορετικοί προγραμματιστές λαμβάνουν διαφορετικά OpenIDs για τον ίδιο χρήστη.
(5). Τεχνικές γενίκευσης
Η τεχνική γενίκευσης αναφέρεται σε μια τεχνική απο-ταυτοποίησης που μειώνει την λεπτομέρεια των επιλεγμένων χαρακτηριστικών σε ένα σύνολο δεδομένων και παρέχει μια γενικότερη και αφηρημένη περιγραφή των δεδομένων. Η τεχνολογία γενίκευσης είναι εύκολο να εφαρμοστεί και μπορεί να προστατεύσει την αυθεντικότητα των δεδομένων σε επίπεδο ρεκόρ. Χρησιμοποιείται συνήθως σε προϊόντα δεδομένων ή αναφορές δεδομένων.
- Στρογγυλοποίηση: Περιλαμβάνει την επιλογή μιας βάσης στρογγυλοποίησης για το επιλεγμένο χαρακτηριστικό, όπως προς τα πάνω ή προς τα κάτω ιατροδικαστή, αποδίδοντας αποτελέσματα 100, 500, 1K και 10K
- Τεχνικές κωδικοποίησης επάνω και κάτω: αντικαταστήστε τις τιμές παραπάνω (ή κάτω) το κατώφλι με ένα κατώφλι που αντιπροσωπεύει το κορυφαίο (ή κάτω) επίπεδο, αποδίδοντας αποτέλεσμα "πάνω από το x" ή "κάτω από το x"
(6). Τεχνικές τυχαιοποίησης
Ως ένα είδος τεχνικής απο-ταυτοποίησης, η τεχνολογία τυχαιοποίησης αναφέρεται στην τροποποίηση της τιμής ενός χαρακτηριστικού μέσω τυχαιοποίησης, έτσι ώστε η τιμή μετά την τυχαιοποίηση να είναι διαφορετική από την αρχική πραγματική τιμή. Αυτή η διαδικασία μειώνει την ικανότητα ενός εισβολέα να αντλήσει μια τιμή χαρακτηριστικού από άλλες τιμές χαρακτηριστικών στην ίδια εγγραφή δεδομένων, αλλά επηρεάζει την αυθεντικότητα των προκύπτουσων δεδομένων, η οποία είναι κοινή με τα δεδομένα δοκιμών παραγωγής.
Χρόνος δημοσίευσης: SEP-27-2022