Engram lève 98 M$ pour réduire de 100 fois les coûts des tokens d'IA

Les dépenses d'IA des entreprises américaines explosent, et une startup de huit mois, inspirée par une approche neuroscientifique de la mémoire, vient de lever 98 millions de dollars pour y remédier.

Engram, une startup d'IA dont les modèles peuvent égaler ceux des laboratoires de pointe en utilisant jusqu'à 100 fois moins de tokens, a levé 98 millions de dollars auprès de General Catalyst, Kleiner Perkins et Sequoia, alors que les entreprises sont confrontées à l'explosion des coûts de l'IA. Le tour comprenait également Andrej Karpathy, cofondateur d'OpenAI.

« On assiste à cette explosion des données, à cette explosion des coûts », a déclaré Leigh Marie Braswell, associée chez Kleiner Perkins. « Engram arrive, cartographie votre organisation et propose des résultats moins coûteux d'un ordre de grandeur. »

L'entreprise de 13 personnes, fondée il y a moins d'un an, a déjà signé Microsoft, Notion et la startup juridique Harvey comme clients. Les modèles d'Engram mémorisent les flux de travail et le contexte spécifiques à chaque organisation pour anticiper les questions et fournir des réponses moins coûteuses, a indiqué la société. Son approche s'inspire du concept neuroscientifique d'engramme — les traces de mémoire dans le cerveau.

Ce financement intervient alors que des entreprises comme Uber et de grandes banques déclarent avoir largement dépassé leurs budgets d'IA avec peu de retours. Le directeur technique d'Uber a révélé en avril que l'entreprise avait déjà dépassé son budget d'IA pour 2026. Deux grandes banques auraient dépensé environ un milliard de dollars en expériences d'IA sans retours significatifs, selon le Times. Meta a imposé des limites strictes sur l'utilisation interne des tokens après avoir constaté qu'elle était sur le point de dépenser des milliards de dollars pour la seule IA en 2026.

Dan Biderman, cofondateur et PDG d'Engram, titulaire d'un doctorat en neurosciences computationnelles de l'Université Columbia et ancien chercheur au laboratoire d'IA de Stanford, a déclaré que l'entreprise construit une couche de « mémoire apprise » pour les systèmes d'IA. L'idée est née de son constat que, bien que les modèles d'IA semblent très performants, leur mémoire est bien plus limitée qu'il n'y paraît — et l'ajout de contexte supplémentaire les submerge souvent, faisant grimper les coûts.

« Nous essayons d'aller au-delà de cette simple prise de notes et de construire cette couche d'intuition que les humains possèdent et que les modèles actuels n'ont pas », a déclaré Biderman.

Cette pression en faveur de l'efficacité survient alors que l'industrie de l'IA dans son ensemble fait face à une crise des coûts. OpenAI et Anthropic envisagent des baisses de prix drastiques moins de trois mois après avoir commencé à facturer le coût réel de leurs services de grands modèles de langage, selon un dirigeant de Cisco qui affirme que les coûts des tokens dépassent largement la valeur qu'ils génèrent à grande échelle. Gartner prévoit que les pénuries de mémoire liées à la demande de serveurs d'IA feront grimper les prix des PC de 17 % et ceux des smartphones de 13 % en 2026.

L'approche d'Engram reflète une tendance plus large vers l'efficacité. Apple construit des modèles d'IA sur appareil via son partenariat avec Google Gemini, distillant de grands modèles en versions plus petites fonctionnant localement. La startup chinoise Zhipu AI a récemment publié GLM-5.2, un modèle open-weight qui sous-cote les modèles occidentaux de pointe jusqu'à 82 % par token, proposant un prix de sortie de 4,40 $ par million de tokens.

Biderman a reconnu que les modèles d'Engram ne sont pas « absolument meilleurs » que ceux d'OpenAI ou d'Anthropic sur toutes les tâches, mais a souligné qu'ils excellent dans la spécialisation — parfois au détriment d'autres capacités. L'entreprise prévoit d'utiliser ce financement pour soutenir ses besoins en calcul et en talents.

Pour les investisseurs, l'acquisition rapide de clients par Engram — décrochant Microsoft et Notion en quelques mois après sa création — signale que la demande des entreprises pour une infrastructure d'IA économique est réelle et urgente. La startup entre dans un domaine encombré de solutions d'efficacité, mais son accent sur la mémoire organisationnelle la différencie de l'optimisation générique des modèles. Si les affirmations d'Engram concernant une réduction de 100 fois des tokens se confirment en production à grande échelle, cela pourrait faire pression sur les prix d'inférence dans toute l'industrie, comprimant les marges des fournisseurs de cloud tout en bénéficiant aux acheteurs d'IA en entreprise.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.