Actualités

Développer un système d’IA en conformité avec le RGPD

A l’heure où l’IA Act poursuit son processus d’adoption, il est utile de revenir aux fondamentaux de la réglementation en matière de protection des données à caractère personnel

Avant d’aborder la question du développement d’un système d’IA conforme au RGPD, il convient de définir cette notion. Au sens du futur Règlement européen établissant des règles harmonisées concernant l’Intelligence Artificielle, il s’agit d’un logiciel développé au moyen d’une ou plusieurs des techniques et approches énumérées à l’annexe I (de l’IA Act) et qui peut, pour un ensemble donné d’objectifs définis par l’homme, générer des résultats tels que des contenus, des prédictions, des recommandations ou des décisions influençant les environnements avec lesquels il interagit.

L’IA n’implique pas nécessairement le recours à des données à caractère personnel mais force est de constater que rares sont les projets excluant leur utilisation.

Ainsi, dès lors que le développement d’un système d’IA va entrainer l’utilisation de données identifiantes (de manière directe ou indirecte), le RGPD va s’appliquer et donc les concepts décrits ci-après.

Que l’IA act soit adopté ou non, l’obligation de respect des dispositions du RGPD est inchangée et plus spécifiquement le respect d’un de ses principes clés qu’est le Privacy by Design.

L’objectif est ici de passer en revue l’ensemble des étapes à appréhender en termes de protection des données à caractère personnel au regard des spécificités des projets de développement de systèmes d’IA.

 

Le privacy by design ou le concept incontournable pour développer des projets conformes au rgpd

Le Privacy by design fait partie des principes fondamentaux du RGPD qui consiste, de manière tout à fait logique et cohérente, d’intégrer une prise ne compte de la vie privée, et donc de la protection des données à caractère personnel, dans le processus de conception de tout nouveau projet.

 

S’interroger sur quant à l’objectif du traitement de données envisage

La première question à se poser invariablement est celle de la définition d’un objectif de traitement de données.

Concernant les IA reposant sur l’apprentissage automatique, deux phases distinctes sont mise en œuvre : une phase d’apprentissage et une phase de production qui ne répondent pas à un même objectif et donc nécessitent d’être analysées en finalités de traitement distinctes.

 

Développer un système d’ia, oui mais sur quelles données baser le projet ?

 

Une source de donnée identifiée

Les systèmes d’intelligence artificielle, en particulier ceux qui s’appuient sur l’apprentissage automatique, requièrent l’utilisation de jeux de données conséquents. La collecte des données est essentielle dans le développement des systèmes d’IA mais ce n’est pas, pour autant un sujet nouveau dans la recherche en informatique de manière générale.

Comme pour tout traitement de données à caractère personnel, la collecte peut être réalisée de diverses manières :

  • La collecte de données ayant pour finalité le développement d’un système d’IA,
  • La réutilisation de données déjà collectées, de manière directe ou indirecte, à d’autres fins. Dans ce second cas, la compatibilité des finalités de collecte initiale et de réutilisation doit nécessairement être étudiée.

Dans les deux cas, tout traitement de données à caractère personnel donne lieu à une information préalable des personnes concernées qui peuvent notamment, en fonction de la base légale retenue, s’y opposer.

 

Des données minimisées

La quantité de données exploitée est un enjeu crucial du développement de certains systèmes d’IA tel que notamment les méthodes d’apprentissage automatique (machine learning) qui nécessitent des volumes des données importants pour être efficients.

La question de la minimisation de ces données doit toutefois se poser : il reste indispensable de se cantonner à traiter les données strictement nécessaires au développement du projet d’IA.

Dans la mesure du possible, pour les étapes de développement et de test, la CNIL recommande le recours à des jeux de données fictives qui néanmoins reproduisent la structure des données réelles, sans que celles-ci soient identifiables.

Si des données réelles doivent être utilisées, leur stricte nécessité et leur quantité doit être évaluée.

Pour ce faire, il est recommandé, de manière non exhaustive :

  • D’évaluer les risques pour la vie privée des personnes et ce de manière régulière,
  • De recourir à des mécanismes de pseudonymisation,
  • D’évaluer les performances du système d’IA en fonction des données utilisées,
  • De définir des mesures de sécurité visant à limiter les risques (restriction des accès).
  • De documenter tout le processus de manière à justifier les arbitrages effectués.

Dans la définition des mesures techniques et organisationnelles, une distinction dans l’approche doit se faire entre la phase d’apprentissage et la phase de production. Les exigences de sécurité seront nettement augmentées dès lors que le système d’IA sera mis en œuvre dans un cadre autre que celui d’un laboratoire de recherche puisqu’il aura potentiellement un impact élevé pour les individus dont les données sont traitées.

 

Un traitement de données avec une base légale adéquate

La détermination de la base légale d’un traitement est une des étapes obligatoires de toute analyse dans la mesure où elle permet de statuer quant à la licéité du traitement de données opéré. Pour cela, le choix est à faire parmi les 6 bases du RGPD que sont le consentement, le respect d’une obligation légale, l’exécution d’un contrat, l’exécution d’une mission d’intérêt public, la sauvegarde des intérêts vitaux, la poursuite d’un intérêt légitime.

Une attention particulière doit être portée aux systèmes d’IA, en particulier ceux qui reposent sur l’apprentissage automatique qui nécessitent l’utilisation de données pendant la phase d’apprentissage avant d’être appliqués opérationnellement.

Il est impératif de noter qu’un tel système d’IA, comme tout traitement de données à caractère personnel, peut être déployé uniquement sur des données personnelles collectées de manière légale, que ce soit pendant la phase d’apprentissage ou celle de production.

Quel que soit la base légale retenue, celle-ci devra être documentée de manière appropriée. Si l’intérêt légitime était retenu, il ne devrait pas s’agir d’une base légale par défaut et l’établissement d’une balance des intérêts serait indispensable, comme à chaque fois que cette base légale est adoptée.

 

Une conservation des données qui ne peut être illimitée

Le RGPD pose le principe selon lequel les données ne sont conservées que le temps d’accomplissement de la finalité définie en amont du traitement de données.

Les systèmes d’IA ne dérogent pas à cette règle. Toutefois, la finalité de traitement définie va parfois nécessiter une durée de conservation relativement longue pour des raisons de développement de nouveaux systèmes, de traçabilité, de mesure de performance dès lors qu’une justification peut être apportée.

 

Une nécessité de transparence

Quel que soit le traitement de données réalisé, l’information préalable des personnes concernées reste obligatoire et ne saurait trouver de dérogations que dans des cas strictement limités à savoir quand l’information se révèle impossible ou nécessite des efforts disproportionnés.

L’information portée à la connaissance des personnes concernée doit être concise, transparente, compréhensible et aisément accessible (article 12 du RGPD). Ces conditions ne sont pas toujours remplies en présence de systèmes d’IA opaques et/ou complexes qui sont alors difficile à retranscrire aux personnes concernées qui ne seraient pas spécialistes du sujet.

Par ailleurs, la mise en œuvre de systèmes d’IA peut entrainer des difficultés à établir une information des personnes dès lors que les données n’ont pas été collectées spécifiquement dans le cadre d’un développement d’un système d’IA mais qu’il s’agit d’une utilisation secondaire.

Les difficultés rencontrées ne peuvent malgré tout pas être nécessairement considérée comme une impossibilité ou présentant un effort disproportionné. Un réel effort de pédagogie est requis sur les questions de transparence de manière générale et l’IA ne saurait être une exception en la matière.

 

Prise en compte des droits des personnes dans les systèmes d’IA

Les personnes dont les données sont traitées, dans le cadre d’un système d’IA notamment, ont des droits qu’elles peuvent exercer et dépendant de la base légale retenue pour le traitement : accès, rectification, effacement, limitation, portabilité, opposition.

Ces droits vont s’appliquer tout au long du cycle de vie du système d’IA concerné et cela n’est pas sans impact sur la conception même du projet. En effet, il sera indispensable d’anticiper la mise en œuvre des droits et développer des fonctionnalités et procédures permettant de répondre aux demandes reçues. Quelques exceptions existent mais sont, comme pour le droit à l’information, très limitées.

 

les systèmes d’IA présentent certaines spécificités

 

Une amélioration continue des systèmes d’IA

Certains systèmes d’IA ont la spécificité d’être des systèmes d’apprentissage en continu pour lesquels les données utilisées en phase de production font également l’objet d’une exploitation pour l’amélioration continue du système.

L’utilisation des données donne ainsi lieu à deux finalités : celle initiale de mise en œuvre du système d’IA et une seconde visant à son amélioration. La compatibilité des finalités doit être vérifiée et encadrée en conséquence.

La CNIL recommande autant que possible de bien distinguer les usages en phase d’apprentissage et ceux en phase de production. Elle considère par ailleurs qu’il est toujours possible de séparer ces deux phases même si elles sont étroitement liées dans les faits.

 

L’encadrement des prises de décisions automatisées

Le RGPD pose des conditions quant à la prise de décision automatisée à son article 22 en précisant que les personnes ont le droit de ne pas faire l’objet d’une décision entièrement automatisée ayant un effet juridique à moins qu’un consentement explicite ait été collecté, que la décision soit nécessaire à un contrat conclu avec l’organisme ou que cette prise de décision soit autorisée par des dispositions légales spécifiques.

Les systèmes d’IA sont susceptibles de donner lieu à une prise de décision automatisée et il est donc nécessaire d’anticiper, si tel est le cas, la possibilité d’une intervention humaine pour que la personne obtienne

  • un nouvel examen de sa situation,
  • des explications,
  • la possibilité de contester et d’exprimer son point de vue.

 

L’évaluation régulière et continue du système d’IA

Afin d’éviter des dérives quant au recours à un système d’IA, il est recommandé de procéder périodiquement à une évaluation pour :

  • Valider l’approche développée en phase de conception : l’objectif est de vérifier que le système fonctionne conformément au but initialement recherché ;
  • Éviter tout risque de dérive du système susceptible d’entrainer une dégradation préjudiciable aux personnes concernées.

 

Le risque de discriminations algorithmiques

Le recours à des systèmes d’IA n’est pas sans risque pour les individus et, comme exposé précédemment, peut avoir des conséquences en termes de discriminations notamment.

Le futur règlement dit « IA Act » vise notamment à encadrer le sujet afin que les systèmes d’IA présentant des risques sur les droits fondamentaux des personnes soient évalués et répondent à un certain nombre d’exigences réglementaires.

Pour plus d’information sur le sujet : IA Act – Le Règlement du Parlement Européen et du Conseil établissent des règles concernant l’IA

Pour toute question relative à vos développements de projets d’IA en conformité au RGPD, l’équipe de Phénix privacy se tient à votre disposition.