Une étude récente de Data Provenance Initiative révèle que les modèles d’IA sont entraînés principalement sur des données provenant d’Europe de l’Ouest et d’Amérique du Nord, au détriment d’autres régions du monde comme l’Afrique. Cette situation soulève des questions cruciales sur l’équité, la diversité et la représentativité de l’intelligence artificielle.
Les modèles d’IA, qui étaient autrefois alimentés par une grande variété de sources -encyclopédies, dictionnaires, transcriptions parlementaires, journaux, rapports météorologiques …-, se tournent de plus en plus vers le web, en particulier vers quelques plateformes dominantes. Cette centralisation des données d’entraînement, mise en lumière par une étude de la Data Provenance Initiative, soulève de graves préoccupations. Elle renforce non seulement le pouvoir des géants du numérique, mais limite aussi la diversité des perspectives et favorise la propagation de biais algorithmiques.
L’Afrique, par exemple, est largement sous-représentée dans les données utilisées pour entraîner ces modèles, ce qui pourrait nuire au développement de technologies adaptées à ses spécificités. L’étude souligne un déséquilibre géographique important : plus de 90% des données analysées proviennent d’Europe de l’Ouest et d’Amérique du Nord, tandis que moins de 4% proviennent d’Afrique. Ce déséquilibre pose des enjeux considérables en termes de diversité et de représentativité.
La surreprésentation des données occidentales, en particulier américaines, risque de renforcer des stéréotypes et de limiter la capacité des modèles à comprendre et à générer du contenu pertinent pour d’autres cultures.
Les implications de cette concentration des données sont multiples et complexes. En effet, les enjeux liés à cette concentration des données mettent en exergue les implications profondes de cette situation, tant pour le développement de l’intelligence artificielle que pour la société dans son ensemble.
Cette dépendance excessive à un corpus de données restreint ne se contente pas de renforcer les biais algorithmiques et de freiner l’innovation. Elle soulève également d’importantes questions éthiques, notamment en matière de protection des données personnelles, de manipulation de l’information et de souveraineté numérique.
La diversité culturelle étant sous-représentée, les risques de discriminations algorithmiques s’en trouvent accrus, tout comme les enjeux liés à la responsabilité des acteurs impliqués dans la conception et le déploiement des systèmes de ces nouveaux « monopoles de l’intelligence ».