Як Google анонімізує дані
Анонімізація – це метод обробки даних, при якому ідентифікаційна інформація видаляється або змінюється. Анонімізовані дані більше не можна пов’язати з особою. Також це важливий компонент зобов’язань Google щодо конфіденційності.
Аналізуючи анонімізовані дані, ми можемо створювати безпечні й цінні продукти та функції (як-от автозавершення пошукових запитів), краще виявляти загрози (як-от сайти з фішингом або зловмисним програмним забезпеченням) і водночас захищати особисту інформацію користувачів. Також ми можемо безпечно надавати анонімізовані дані третім сторонам, не ставлячи під загрозу конф��денційність користувачів.
Для захисту ваших даних ми використовуємо два методи
Генералізація даних
Певні елементи даних простіше пов’язати з особою. Щоб захистити користувачів, ми генералізуємо дані, тобто частково їх видаляємо або замінюємо загальним значенням. Наприклад, ми можемо замінити всі коди міст чи номери телефону однаковим набором цифр.
Генералізацією ми досягаємо k-анонімності (стандартний галузевий термін, яким позначають приховування особистих даних у групі схожих людей), де k – це числове значення розміру групи. Якщо комусь у наборі даних відповідає хоча б одна особа з такими ж властивостями, то k-анонімність досягнуто. Наприклад, у певному наборі даних k дорівнює 50, а властивістю є поштовий індекс. На кожного учасника групи припадають ще 49 осіб із таким самим значенням цього параметра. Тому ідентифікувати особу лише за поштовим індексом неможливо.
Якщо всі люди в групі мають той самий конфіденційний атрибут, то особисту інформацію можна виявити, просто знаючи, що дані цих осіб містяться в певному наборі. Щоб зменшити такий ризик, ми використовуємо l-різноманітність (стандартний галузевий термін, що позначає рівень різноманітності конфіденційних значень). Наприклад, група людей одночасно шукає інформацію про здоров'я (як-от симптоми грипу). Завдяки k-анонімності під час перегляду набору даних ми не зможемо виявити, хто здійснював пошук. Проте все ще існує загроза особистій інформації, оскільки конфіденційний атрибут (тема пошукового запиту) однаковий. L-різноманітність означає, що набір анонімізованих даних міститиме пошукові запити на різні теми, а не лише про грип. ��е допоможе краще захистити конфіденційність користувачів.
Додавання шуму до даних
Диференційна конфіденційність (також стандартний галузевий термін) – це метод додавання математичного шуму до даних. З цим методом результат алгоритму завжди однаковий, тому важко визначити, чи інформація про особу є частиною набору даних. Наприклад, ми можемо вивчати загальні тенденції пошукових запитів щодо грипу в певному географічному регіоні. Щоб досягти диференційної конфіденційності, до набору даних додається шум. Це означає, що ми можемо змінити дані про кількість людей, які вводять запити про грип у певній місцевості, але це не вплине на загальне вивчення ширшого географічного регіону. Важливо зазначити, що додавання шуму до набору даних може зробити його менш корисним.
Анонімізація – це лише один із процесів, які допомагають захистити конфіденційність. Крім цього, ми суворо контролюємо доступ до даних користувачів, обмежуємо додавання наборів даних, за якими можна ідентифікувати особу, а також централізовано перевіряємо анонімізацію та стратегії керування даними, щоб підтримувати належний рівень захисту в усіх продуктах Google.