La k-anonymisation est une propriété possédée par certaines données anonymisées. Le terme k-anonymisation (k-anonymity en anglais) a été introduit pour la première fois par Pierangela Samarati et Latanya Sweeney dans un article publié en 1998, bien que le concept remonte à un article de 1986 de Tore Dalenius. La k-anonymisation est une tentative pour résoudre le problème suivant : Une diffusion de données est dite k-anonyme si les informations publiées relatives à chaque personne ne peuvent pas être distinguées d'au moins personnes dont les informations sont également publiées. Malheureusement, les garanties fournies par le k-anonymat sont ambitieuses et non mathématiques. Pour traiter un ensemble de données au moyen de la k-anonymisation afin de pouvoir les publier tout en protégeant la vie privée, un scientifique des données doit d'abord examiner l'ensemble de données et décider si chaque attribut (colonne) est un , un , ou un . Les identifiants tels que les noms sont supprimés, les valeurs non identifiantes sont conservées et les quasi-identifiants seront traités de sorte que chaque combinaison distincte de quasi-identifiants désigne au moins enregistrements. Voici une base de données non anonymisée des dossiers de patients d'un hôpital fictif. La colonne est un identifiant, et sont des quasi-identifiants, et est une valeur sensible non identifiante. Ces données contiennent 6 attributs et 10 enregistrements. Il existe deux méthodes courantes pour atteindre le pour une certaine valeur de . Suppression : Dans cette méthode, certaines valeurs des attributs sont remplacées par un astérisque '*'. Dans le tableau anonymisé ci-dessous, nous avons remplacé toutes les valeurs de l'attribut et toutes les valeurs de l'attribut par un . Généralisation : Dans cette méthode, les valeurs individuelles des attributs sont remplacées par une catégorie plus large. Par exemple, la valeur de l'attribut peut être remplacée par , la valeur par Voici la base de données anonymisée : Ces données sont 2-anonymes en ce qui concerne les attributs , et : il y a toujours au moins 2 lignes contenant exactement toute combinaison de valeurs de ces attributs figurant dans le tableau.