apple event 2022

Apple accusé d’avoir utilisé des livres piratés pour entraîner son IA : un scandale qui fait tache

Alors qu’Apple se positionne comme un acteur éthique dans l’univers de l’intelligence artificielle, l’entreprise est désormais ciblée par une plainte judiciaire qui pourrait ternir son image. Deux auteurs américains accusent la firme de Cupertino d’avoir utilisé illégalement leurs œuvres littéraires pour entraîner ses modèles d’intelligence artificielle.

Une plainte qui s’inscrit dans une tendance croissante

Grady Hendrix et Jennifer Roberson, auteurs de romans à succès, ont déposé un recours collectif devant un tribunal fédéral en Californie du Nord. Selon leur plainte, Apple aurait intégré leurs livres dans un ensemble de données piratées servant à l’entraînement de ses modèles de langage OpenELM et, potentiellement, de ses modèles de base (Foundation Models). Ces accusations font écho à d’autres litiges en cours contre des géants technologiques comme Microsoft, Meta ou encore OpenAI.

Des œuvres extraites du dataset controversé « Books3 »

Le cœur de l’affaire repose sur l’utilisation présumée par Apple du dataset « Books3 », un corpus de textes piratés hébergé initialement sur le site Bibliotik, une bibliothèque clandestine. Books3 a été rendu disponible sur la plateforme Hugging Face avant d’en être retiré en octobre 2023. Ce dataset a ensuite été intégré au projet RedPajama, utilisé notamment pour entraîner les modèles OpenELM mis à disposition par Apple en 2024.

D’après les plaignants, Apple n’a à aucun moment tenté de les indemniser ni de demander leur autorisation, malgré la valeur commerciale potentielle des modèles entraînés avec leurs œuvres.

Apple sur la défensive malgré sa stratégie éthique

Cette plainte contraste fortement avec la stratégie publique d’Apple, qui a multiplié les initiatives pour s’afficher comme un acteur responsable en matière de données. En 2024, la société avait notamment conclu un accord avec Shutterstock pour utiliser légalement des millions d’images à des fins d’entraînement. Apple aurait également proposé des contrats de plusieurs millions de dollars à certains éditeurs pour obtenir l’accès à leurs publications.

Dans un document de recherche publié récemment, Apple expliquait qu’elle respectait les directives « robots.txt » des sites web, refusant ainsi de collecter les données d’un éditeur sans consentement explicite.

Les revendications des plaignants : vers un procès emblématique ?

Hendrix et Roberson demandent un procès avec jury et sollicitent plusieurs mesures fortes, parmi lesquelles :

  • L’indemnisation financière des auteurs concernés (dommages statutaires et compensatoires)
  • La restitution des bénéfices tirés de l’exploitation des œuvres
  • La destruction des modèles d’IA ayant été formés avec les œuvres piratées
  • Le remboursement des frais juridiques

Ils souhaitent également que l’affaire soit reconnue comme un recours collectif, ce qui pourrait ouvrir la voie à des centaines d’autres auteurs.

Un précédent juridique déjà coûteux pour l’industrie

Ce type d’affaire devient de plus en plus fréquent à mesure que l’IA prend de l’ampleur. En septembre, la startup Anthropic a accepté de verser 1,5 milliard de dollars pour régler un litige similaire. Il s’agit de l’un des plus importants accords de dédommagements jamais enregistrés dans un contentieux lié au droit d’auteur.

En revanche, d’autres cas ont eu une issue favorable pour les entreprises technologiques, notamment celui de Meta, où le tribunal a estimé que l’usage des livres entrait dans le cadre du « fair use ».

Un débat de fond sur les droits d’auteur à l’ère de l’IA

Au-delà du cas Apple, cette affaire relance le débat sur la légitimité de l’utilisation de contenus protégés pour former des intelligences artificielles. Si certains plaident pour une réforme des lois afin de permettre l’innovation sans entraves, d’autres estiment que les créateurs doivent être rémunérés équitablement pour leur contribution involontaire à ces technologies.

La justice américaine devra désormais trancher une question centrale : les entreprises peuvent-elles s’appuyer sur des œuvres piratées pour développer des technologies d’IA de pointe, même indirectement ?

Total
0
Shares
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles similaires