Offchain Labs réduit le temps de preuve d'IA de 15 minutes à quelques millisecondes

Le développeur d'Arbitrum, Offchain Labs, a publié un document de recherche le 3 juin, proposant une méthode basée sur l'échantillonnage qui réduit la génération de preuve d'inférence IA d'environ 15 minutes à quelques millisecondes.

« Le modèle de tarification par jeton crée une incitation économique concrète à la fraude — servir un modèle de 7 milliards de paramètres coûte moins cher qu'un modèle de 70 milliards de paramètres, et exécuter une inférence quantifiée est moins coûteux qu'une précision totale », ont écrit les auteurs du document chez Offchain Labs dans l'étude de mars 2026 intitulée Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference.

Les preuves cryptographiques existantes, du type utilisé par les rollups zero-knowledge, peuvent démontrer un calcul correct sans réexécution, mais des schémas tels que zkLLM nécessitent environ 15 minutes pour générer une seule preuve d'inférence pour un modèle de 13 milliards de paramètres — un laps de temps incompatible avec les API qui doivent répondre en moins d'une seconde. La proposition d'Offchain Labs abandonne la réexécution exhaustive au profit d'un échantillonnage aléatoire : le serveur s'engage sur une empreinte numérique des poids du modèle et des valeurs internes, puis le client sélectionne un chemin aléatoire vers la sortie et demande au serveur de révéler uniquement les valeurs le long de ce chemin. Si le serveur a substitué un modèle plus petit, les valeurs seront incohérentes et la vérification échoue, la probabilité de détection s'accumulant au fil des requêtes répétées.

Le protocole étend la même logique de résolution de litige qui protège Arbitrum One — les rollups optimistes ne réexécutent que l'étape contestée plutôt que chaque calcul — à l'inférence des réseaux de neurones, en utilisant une procédure de bissection qui réduit le désaccord entre deux serveurs en un nombre logarithmique de tours. Pour le marché émergent des agents autonomes et des industries réglementées qui exigent une gouvernance des modèles, la différence entre une revendication de transparence et une revendication vérifiable commence à avoir des conséquences directes.

Des chercheurs de Stanford ont documenté que le comportement de GPT-3.5 et GPT-4 a changé de manière mesurable entre mars et juin 2023 sur les mêmes tâches d'évaluation, selon le document, pourtant le contrat API actuel n'offre aucun mécanisme pour détecter cette différence. L'incitation économique à la substitution de modèle évolue avec le volume : un fournisseur peut rediriger une fraction des requêtes vers un modèle plus petit ou quantifié tout en facturant les frais du modèle plus grand.

Le lien avec Arbitrum est explicite dans le document. Les rollups optimistes fonctionnent sur la même intuition — réexécuter chaque étape d'un long calcul sur chaque machine est coûteux, tandis que l'échantillonnage de l'étape contestée est peu coûteux. Le protocole proposé étend cette logique aux valeurs des réseaux de neurones, en utilisant la même structure de résolution de litige basée sur la bissection qui protège Arbitrum One.

Pour les industries réglementées, les équipes de gouvernance des modèles et le marché émergent des agents autonomes, le protocole n'exige pas que les développeurs modifient leurs piles existantes ; il exige seulement que quelqu'un dans le système — que ce soit le fournisseur, l'auditeur ou la plateforme — produise une déclaration vérifiable.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.