1. Концепція маскування даних
Маскування даних також відоме як маскування даних. Це технічний метод для перетворення, зміни або приховування конфіденційних даних, таких як номер мобільного телефону, номер банківської картки та іншої інформації, коли ми надаємо правила та політику маскування. Ця техніка в основному використовується для запобігання безпосередньому використанню конфіденційних даних у ненадійних середовищах.
Принцип маскування даних: маскування даних має підтримувати оригінальні характеристики даних, бізнес-правила та релевантність даних, щоб гарантувати, що маскування не вплине на подальшу розробку, тестування та аналіз даних. Забезпечте узгодженість і дійсність даних до і після маскування.
2. Класифікація маскування даних
Маскування даних можна розділити на статичне маскування даних (SDM) і динамічне маскування даних (DDM).
Статичне маскування даних (SDM): Статичне маскування даних вимагає створення нової бази даних невиробничого середовища для ізоляції від виробничого середовища. Конфіденційні дані витягуються з робочої бази даних, а потім зберігаються в невиробничій базі даних. Таким чином десенсибілізовані дані ізольовані від виробничого середовища, що відповідає потребам бізнесу та забезпечує безпеку виробничих даних.
Динамічне маскування даних (DDM): зазвичай використовується у виробничому середовищі для десенсибілізації конфіденційних даних у реальному часі. Іноді для зчитування одних і тих же конфіденційних даних у різних ситуаціях потрібні різні рівні маскування. Наприклад, різні ролі та дозволи можуть реалізовувати різні схеми маскування.
Додаток для створення звітів і маскування продуктів даних
Такі сценарії в основному включають внутрішні продукти моніторингу даних або рекламні щити, зовнішні сервісні продукти даних і звіти на основі аналізу даних, наприклад бізнес-звіти та огляд проекту.
3. Рішення для маскування даних
Загальні схеми маскування даних включають: визнання недійсним, випадкове значення, заміну даних, симетричне шифрування, середнє значення, зміщення та округлення тощо.
Анулювання: недійсність означає шифрування, скорочення або приховування конфіденційних даних. Ця схема зазвичай замінює реальні дані спеціальними символами (наприклад, *). Операція проста, але користувачі не можуть знати формат вихідних даних, що може вплинути на подальші програми даних.
Випадкове значення: Випадкове значення стосується випадкової заміни конфіденційних даних (цифри замінюють цифри, літери замінюють літери, а символи замінюють символи). Цей метод маскування певною мірою забезпечить формат конфіденційних даних і полегшить подальше застосування даних. Маскувальні словники можуть знадобитися для деяких значущих слів, наприклад імен людей і місць.
Заміна даних: заміна даних подібна до маскування нульових і випадкових значень, за винятком того, що замість використання спеціальних символів або випадкових значень дані маскування замінюються певним значенням.
Симетричне шифрування: Симетричне шифрування — це спеціальний оборотний метод маскування. Він шифрує конфіденційні дані за допомогою ключів і алгоритмів шифрування. Формат зашифрованого тексту узгоджується з вихідними даними в логічних правилах.
Середній: Середня схема часто використовується в статистичних сценаріях. Для числових даних ми спочатку обчислюємо їх середнє значення, а потім випадковим чином розподіляємо десенсибілізовані значення навколо середнього, таким чином зберігаючи суму даних постійною.
Зсув і округлення: Цей метод змінює цифрові дані шляхом випадкового зсуву. Округлення зміщення забезпечує приблизну автентичність діапазону, зберігаючи безпеку даних, які ближчі до реальних даних, ніж попередні схеми, і мають велике значення в сценарії аналізу великих даних.
Рекомендована модель "ML-NPB-5660" для маскування даних
4. Зазвичай використовувані методи маскування даних
(1). Статистичні методи
Вибірка та агрегація даних
- Вибірка даних: аналіз і оцінка вихідного набору даних шляхом вибору репрезентативної підмножини набору даних є важливим методом підвищення ефективності методів деідентифікації.
- Агрегація даних: як сукупність статистичних методів (таких як підсумовування, підрахунок, усереднення, максимум і мінімум), застосованих до атрибутів у мікроданих, результат є репрезентативним для всіх записів у вихідному наборі даних.
(2). Криптографія
Криптографія є поширеним методом десенсибілізації або підвищення ефективності десенсибілізації. Різні типи алгоритмів шифрування можуть досягти різних ефектів десенсибілізації.
- Детермінізоване шифрування: невипадкове симетричне шифрування. Зазвичай він обробляє ідентифікаційні дані та може розшифрувати та відновити зашифрований текст до оригінального ідентифікатора, коли це необхідно, але ключ потрібно належним чином захистити.
- Необоротне шифрування: хеш-функція використовується для обробки даних, яка зазвичай використовується для ідентифікаційних даних. Його неможливо розшифрувати безпосередньо, і зв’язок зіставлення має бути збережений. Крім того, через особливість хеш-функції може виникнути колізія даних.
- Гомоморфне шифрування: використовується гомоморфний алгоритм зашифрованого тексту. Її характеристика полягає в тому, що результат операції з зашифрованим текстом такий самий, як і операції з відкритим текстом після дешифрування. Тому він зазвичай використовується для обробки числових полів, але він не широко використовується з міркувань продуктивності.
(3). Системні технології
Технологія придушення видаляє або захищає елементи даних, які не відповідають конфіденційності, але не публікує їх.
- Маскування: це відноситься до найпоширенішого методу десенсибілізації для маскування значення атрибута, такого як номер суперника, ідентифікаційна картка, позначена зірочкою, або адреса скорочена.
- Локальне придушення: відноситься до процесу видалення певних значень атрибутів (стовпців), видалення несуттєвих полів даних;
- Припинення записів: відноситься до процесу видалення певних записів (рядків), видалення несуттєвих записів даних.
(4). Технологія псевдонімів
Псевдоманінг — це техніка деідентифікації, яка використовує псевдонім для заміни прямого ідентифікатора (або іншого конфіденційного ідентифікатора). Методи псевдонімів створюють унікальні ідентифікатори для кожного окремого суб’єкта інформації замість прямих або конфіденційних ідентифікаторів.
- Він може незалежно генерувати випадкові значення, щоб відповідати оригінальному ідентифікатору, зберігати таблицю відображення та суворо контролювати доступ до таблиці відображення.
- Ви також можете використовувати шифрування для створення псевдонімів, але потрібно правильно зберігати ключ розшифровки;
Ця технологія широко використовується у випадку великої кількості незалежних користувачів даних, наприклад OpenID у сценарії відкритої платформи, де різні розробники отримують різні OpenID для одного користувача.
(5). Прийоми узагальнення
Техніка узагальнення відноситься до техніки деідентифікації, яка зменшує деталізацію вибраних атрибутів у наборі даних і забезпечує більш загальний і абстрактний опис даних. Технологію узагальнення легко реалізувати та вона може захистити достовірність даних на рівні записів. Він зазвичай використовується в продуктах даних або звітах даних.
- Округлення: передбачає вибір основи округлення для вибраного атрибута, наприклад криміналістика вгору або вниз, що дає результати 100, 500, 1K і 10K
- Методи верхнього та нижнього кодування: замініть значення вище (або нижче) порогу на порогове значення, що представляє верхній (або нижній) рівень, одержуючи результат «вище X» або «нижче X».
(6). Методи рандомізації
Як різновид техніки деідентифікації, технологія рандомізації стосується модифікації значення атрибута шляхом рандомізації, щоб значення після рандомізації відрізнялося від початкового реального значення. Цей процес зменшує здатність зловмисника отримувати значення атрибута з інших значень атрибутів у тому самому записі даних, але впливає на автентичність отриманих даних, що є загальним для даних виробничого тестування.
Час публікації: 27 вересня 2022 р