1. Концепція маскування даних
Маскування даних також відоме як маскування даних. Це технічний метод перетворення, зміни або охоплення конфіденційних даних, таких як номер мобільного телефону, номер банківської картки та інша інформація, коли ми надали правила та політику маскування. Ця методика використовується насамперед для запобігання використанню чутливих даних безпосередньо в ненадійних умовах.
Принцип маскування даних: маскування даних повинно підтримувати оригінальні характеристики даних, ділові правила та дані, що стосуються даних, щоб гарантувати, що на наступну розробку, тестування та аналіз даних не вплине маскування. Забезпечити узгодженість даних та обґрунтованість до та після маскування.
2. Класифікація маскування даних
Маскування даних можна розділити на статичне маскування даних (SDM) та динамічне маскування даних (DDM).
Статичне маскування даних (SDM): Статичне маскування даних вимагає створення нової бази даних про виробництво середовища для ізоляції з виробничого середовища. Чутливі дані витягуються з виробничої бази даних, а потім зберігаються в базі даних про виробництво. Таким чином, десенсибілізовані дані ізольовані від виробничого середовища, яке відповідає потребам бізнесу та забезпечує безпеку виробничих даних.
Динамічне маскування даних (DDM): Він, як правило, використовується у виробничому середовищі для десенсибілізації чутливих даних у режимі реального часу. Іноді потрібні різні рівні маскування для читання однакових конфіденційних даних у різних ситуаціях. Наприклад, різні ролі та дозволи можуть реалізовувати різні схеми маскування.
Звіт про звітність та засоби маскування даних
Такі сценарії в основному включають внутрішні продукти моніторингу даних або рекламний щит, продукти даних про зовнішні послуги та звіти на основі аналізу даних, таких як звіти про бізнес та огляд проектів.
3. Рішення маскування даних
Загальні схеми маскування даних включають: інвалідність, випадкове значення, заміна даних, симетричне шифрування, середнє значення, зміщення та округлення тощо.
Інвалідація: Інваліляція стосується шифрування, усічення або приховування конфіденційних даних. Ця схема зазвичай замінює реальні дані спеціальними символами (наприклад, *). Операція проста, але користувачі не можуть знати формат вихідних даних, що може вплинути на подальші програми даних.
Випадкове значення: Випадкове значення відноситься до випадкової заміни конфіденційних даних (числа замінюють цифри, літери замінюють букви та символи замінюють символи). Цей метод маскування забезпечить формат конфіденційних даних певною мірою та полегшить подальше застосування даних. Маскування словників може знадобитися для деяких значущих слів, таких як імена людей та місця.
Заміна даних: Заміна даних схожа на маскування нульових та випадкових значень, за винятком того, що замість використання спеціальних символів або випадкових значень дані маскування замінюються на певне значення.
Симетричне шифрування: Симетричне шифрування - це спеціальний метод маскування. Він шифрує конфіденційні дані за допомогою клавіш шифрування та алгоритмів. Формат шифротексту узгоджується з вихідними даними в логічних правилах.
Середній: Середня схема часто використовується в статистичних сценаріях. Для чисельних даних ми спочатку обчислюємо їх середнє значення, а потім випадковим чином розподіляємо десенсибілізовані значення навколо середнього, тим самим зберігаючи суму постійних даних.
Зміщення та округлення: Цей метод змінює цифрові дані за випадковим зсувом. Округ зміщення забезпечує приблизну автентичність діапазону, зберігаючи безпеку даних, що ближче до реальних даних, ніж попередні схеми, і має велике значення в сценарії аналізу великих даних.
Рекомендована модель "ML-NPB-5660"Для маскування даних
4. Загально використовуються методи маскування даних
(1). Статистичні методи
Вибірка даних та агрегація даних
- Вибірка даних: Аналіз та оцінка початкового набору даних шляхом вибору репрезентативного підмножини набору даних є важливим методом для підвищення ефективності методів де-ідентифікації.
- Агрегація даних: як збір статистичних методик (таких як підсумок, підрахунок, усереднення, максимум та мінімум), застосовані до атрибутів у мікроданих, результат є репрезентативним для всіх записів у початковому наборі даних.
(2). Криптографія
Криптографія - це загальний метод десенсибілізації або підвищення ефективності десенсибілізації. Різні типи алгоритмів шифрування можуть досягти різних ефектів десенсибілізації.
- детерміноване шифрування: симетричне шифрування, що не є по-ранку. Зазвичай він обробляє дані ідентифікатора і може розшифрувати та відновити шифротекст до початкового ідентифікатора, коли це необхідно, але ключ повинен бути належним чином захищений.
- Незворотне шифрування: Хеш -функція використовується для обробки даних, яка зазвичай використовується для даних ідентифікатора. Його неможливо безпосередньо розшифрувати, і відносини картографування повинні бути врятовані. Крім того, через особливість функції хеша може відбутися зіткнення даних.
- Використовується гомоморфне шифрування: Використовується гомоморфний алгоритм шифротексту. Його характеристика полягає в тому, що результат роботи шифротексту такий же, як і в роботі простого тексту після дешифрування. Тому він зазвичай використовується для обробки чисельних полів, але він не широко використовується з міркувань продуктивності.
(3). Системна технологія
Технологія придушення видаляє або визначає елементи даних, які не відповідають захисту конфіденційності, але не публікують їх.
- Маскування: Це стосується найпоширенішого методу десенсибілізації для маскування значення атрибута, наприклад, номер суперника, посвідчення особи позначається зірочкою, або адреса усічена.
- локальне придушення: відноситься до процесу видалення конкретних значень атрибутів (стовпців), видалення несуттєвих полів даних;
- Придушення запису: відноситься до процесу видалення конкретних записів (рядків), видалення несуттєвих записів даних.
(4). Псевдонім технологія
Псевдоманство-це техніка де-ідентифікації, яка використовує псевдонім для заміни прямого ідентифікатора (або іншого чутливого ідентифікатора). Методи псевдонімів створюють унікальні ідентифікатори для кожного індивідуального предмета, замість прямих або чутливих ідентифікаторів.
- Він може генерувати випадкові значення незалежно, щоб відповідати початковому ідентифікатору, зберегти таблицю відображення та суворо контролювати доступ до таблиці картографування.
- Ви також можете використовувати шифрування для отримання псевдонімів, але потрібно належним чином підтримувати ключ дешифрування;
Ця технологія широко використовується у випадку великої кількості незалежних користувачів даних, таких як OpenID у сценарії відкритої платформи, де різні розробники отримують різні відкриті для одного користувача.
(5). Техніки узагальнення
Техніка узагальнення стосується методики де-ідентифікації, яка зменшує деталізацію вибраних атрибутів у наборі даних та надає більш загальний та абстрактний опис даних. Технологія узагальнення легко реалізувати і може захистити справжність даних на рівні записів. Він зазвичай використовується в продуктах даних або звітах про дані.
- округлення: передбачає вибір округла базу для вибраного атрибута, наприклад, криміналістика вгору або вниз, даючи результати 100, 500, 1K та 10K
- Методи кодування вгорі та нижньої частини: Замініть значення вгорі (або нижче) поріг порогом, що представляє верхній (або нижній) рівень, даючи результат "вище x" або "нижче x"
(6). Методи рандомізації
Як різновид методики де-ідентифікації, технологія рандомізації відноситься до зміни значення атрибута через рандомізацію, так що значення після рандомізації відрізняється від початкового реального значення. Цей процес зменшує здатність зловмисника отримувати значення атрибута з інших значень атрибутів у одному записі даних, але впливає на справжність отриманих даних, що є загальними для даних про виробничі тестування.
Час посади: вересень-27-2022