L’entreprise propose une bibliothèque «open source» réunissant une quantité astronomique de livres et de documents, utilisés pour entraîner les modèles d’IA. Parmi ces données, «Mediapart» a détecté près d’un demi-million d’ouvrages et articles scientifiques protégés.