Що таке технологія маскування даних та рішення в Network Packet Broker?

1. Концепція маскування даних

Маскування даних також відоме як маскування даних. Це технічний метод перетворення, зміни або приховування конфіденційних даних, таких як номер мобільного телефону, номер банківської картки та інша інформація, коли ми встановили правила та політики маскування. Цей метод в основному використовується для запобігання безпосередньому використанню конфіденційних даних у ненадійних середовищах.

Принцип маскування даних: Маскування даних повинно зберігати оригінальні характеристики даних, бізнес-правила та релевантність даних, щоб гарантувати, що подальша розробка, тестування та аналіз даних не будуть вплинуті маскуванням. Забезпечте узгодженість та достовірність даних до та після маскування.

2. Класифікація маскування даних

Маскування даних можна розділити на статичне маскування даних (SDM) та динамічне маскування даних (DDM).

Статичне маскування даних (SDM)Маскування статичних даних вимагає створення нової бази даних невиробничого середовища для ізоляції від виробничого середовища. Конфіденційні дані витягуються з виробничої бази даних, а потім зберігаються в невиробничій базі даних. Таким чином, десенсибілізовані дані ізолюють від виробничого середовища, що відповідає потребам бізнесу та забезпечує безпеку виробничих даних.

СДМ

Динамічне маскування даних (DDM)Зазвичай використовується у виробничому середовищі для зниження чутливості конфіденційних даних у режимі реального часу. Іноді для зчитування тих самих конфіденційних даних у різних ситуаціях потрібні різні рівні маскування. Наприклад, різні ролі та дозволи можуть реалізовувати різні схеми маскування.

ДДМ

Застосунок для маскування звітності даних та продуктів даних

Такі сценарії включають переважно продукти для внутрішнього моніторингу даних або рекламні щити, продукти для обробки даних зовнішніх сервісів та звіти на основі аналізу даних, такі як бізнес-звіти та огляди проектів.

маскування продукту для звітності даних

3. Рішення для маскування даних

До поширених схем маскування даних належать: анулювання, випадкове значення, заміна даних, симетричне шифрування, усереднення, зміщення та округлення тощо.

АнулюванняІнвалідність стосується шифрування, скорочення або приховування конфіденційних даних. Ця схема зазвичай замінює реальні дані спеціальними символами (наприклад, *). Операція проста, але користувачі не можуть знати формат вихідних даних, що може вплинути на подальші програми обробки даних.

Випадкове значенняВипадкове значення стосується випадкової заміни конфіденційних даних (числа замінюють цифри, літери замінюють літери, а символи замінюють символи). Цей метод маскування певною мірою забезпечить форматування конфіденційних даних та полегшить подальше використання даних. Для деяких значущих слів, таких як імена людей та назв місць, можуть знадобитися маскувальні словники.

Заміна данихЗаміна даних подібна до маскування нульових та випадкових значень, за винятком того, що замість використання спеціальних символів або випадкових значень маскувальні дані замінюються певним значенням.

Симетричне шифруванняСиметричне шифрування – це спеціальний метод оборотного маскування. Він шифрує конфіденційні дані за допомогою ключів шифрування та алгоритмів. Формат шифротексту узгоджується з вихідними даними в логічних правилах.

СереднійСхема усереднення часто використовується в статистичних сценаріях. Для числових даних ми спочатку обчислюємо їхнє середнє значення, а потім випадковим чином розподіляємо десенсибілізовані значення навколо середнього значення, таким чином зберігаючи суму даних постійною.

Зсув та округленняЦей метод змінює цифрові дані випадковим зсувом. Округлення зі зміщенням забезпечує приблизну автентичність діапазону, зберігаючи при цьому безпеку даних, що ближче до реальних даних, ніж у попередніх схемах, і має велике значення у сценарії аналізу великих даних.

ML-NPB-5660-数据脱敏

Модель рекомендацій"ML-NPB-5660"для маскування даних"

4. Найчастіше використовувані методи маскування даних

(1). Статистичні методи

Вибірка даних та агрегація даних

- Вибірка даних: аналіз та оцінка вихідного набору даних шляхом вибору репрезентативної підмножини набору даних є важливим методом підвищення ефективності методів деідентифікації.

- Агрегація даних: результат є репрезентативним для всіх записів у вихідному наборі даних, оскільки він є сукупністю статистичних методів (таких як підсумовування, підрахунок, усереднення, максимум і мінімум), застосованих до атрибутів у мікроданих.

(2). Криптографія

Криптографія — поширений метод зниження чутливості або підвищення ефективності десенсибілізації. Різні типи алгоритмів шифрування можуть досягати різних ефектів десенсибілізації.

- Детерміністичне шифрування: невипадкове симетричне шифрування. Зазвичай воно обробляє ідентифікаційні дані та може розшифрувати та відновити зашифрований текст до початкового ідентифікатора, коли це необхідно, але ключ має бути належним чином захищений.

- Незворотне шифрування: для обробки даних використовується хеш-функція, яка зазвичай застосовується для ідентифікаційних даних. Її неможливо безпосередньо розшифрувати, і зв'язок зіставлення має бути збережений. Крім того, через особливості хеш-функції може виникнути колізія даних.

- Гомоморфне шифрування: Використовується гомоморфний алгоритм шифротексту. Його характеристика полягає в тому, що результат операції з шифротекстом такий самий, як і результат операції з відкритим текстом після дешифрування. Тому він зазвичай використовується для обробки числових полів, але не отримав широкого поширення з міркувань продуктивності.

(3). Системні технології

Технологія придушення видаляє або захищає елементи даних, які не відповідають вимогам захисту конфіденційності, але не публікує їх.

- Маскування: це найпоширеніший метод десенсибілізації для маскування значення атрибута, такого як номер опонента, позначка посвідчення особи зірочкою або скорочення адреси.

- Локальне придушення: стосується процесу видалення певних значень атрибутів (стовпців), видалення несуттєвих полів даних;

- Приховування записів: стосується процесу видалення певних записів (рядків), видалення несуттєвих записів даних.

(4). Технологія псевдонімів

Псевдонімування — це метод деідентифікації, який використовує псевдонім для заміни прямого ідентифікатора (або іншого конфіденційного ідентифікатора). Методи псевдонімів створюють унікальні ідентифікатори для кожного окремого суб'єкта інформації замість прямих чи конфіденційних ідентифікаторів.

- Він може незалежно генерувати випадкові значення відповідно до вихідного ідентифікатора, зберігати таблицю зіставлення та суворо контролювати доступ до таблиці зіставлення.

- Ви також можете використовувати шифрування для створення псевдонімів, але потрібно правильно зберігати ключ розшифрування;

Ця технологія широко використовується у випадку великої кількості незалежних користувачів даних, таких як OpenID у сценарії відкритої платформи, де різні розробники отримують різні OpenID для одного й того ж користувача.

(5). Методи узагальнення

Метод узагальнення — це метод деідентифікації, який зменшує деталізацію вибраних атрибутів у наборі даних і надає більш загальний та абстрактний опис даних. Технологія узагальнення проста у впровадженні та може захистити автентичність даних на рівні записів. Вона зазвичай використовується в продуктах даних або звітах даних.

- Округлення: включає вибір бази округлення для вибраного атрибута, наприклад, вгору або вниз, що дає результати 100, 500, 1 тис. та 10 тис.

- Методи верхнього та нижнього кодування: замініть значення вище (або нижче) порогу порогом, що представляє верхній (або нижній) рівень, що дає результат «вище X» або «нижче X».

(6). Методи рандомізації

Як різновид методу деідентифікації, технологія рандомізації стосується модифікації значення атрибута шляхом рандомізації, так що значення після рандомізації відрізняється від початкового реального значення. Цей процес зменшує здатність зловмисника виводити значення атрибута з інших значень атрибутів у тому ж записі даних, але впливає на автентичність отриманих даних, що є типовим для тестових даних виробничого процесу.


Час публікації: 27 вересня 2022 р.