Tu ouvres ton chat préféré. Même interface. Rien de neuf.
C’est normal. Les vrais changements ne commencent jamais dans le produit. Ils se passent en amont.
Il y a une question qu’on entend rarement, pourtant chaque labo la calcule : combien de GPU peuvent communiquer assez vite pour se comporter comme un seul ?
Ce nombre a un nom : Scale up world. Et cette année il va changer.
Pendant des années, je regardais la mémoire par chip. Par exemple, 80 Go pour un H100. Puis j’additionnais les chips.
Mais en réalité, la vraie limite c’est la mémoire par monde. Combien de mémoire tu peux agréger à haute vitesse sans passer par le réseau du datacenter.
Quelques chiffres :
- 8 H100 dans un serveur : 640 Go
- 72 GB200/GB300 dans un rack NVL72 : 13 500 Go
- 9 216 TPU Ironwood dans un superpod : 1 770 000 Go
Le mur n’a pas bougé. On a agrandi le monde.
Quand le monde était petit, certains modèles ne tenaient pas dedans. Il fallait les découper, les répartir sur plusieurs serveurs, et chaque inférence traversait le réseau lentement. C’était un processus coûteux et fragile.
Une fois le monde agrandi, ces mêmes modèles fonctionnent. L’inférence redevient locale. Le reinforcement learning devient praticable.
Ce qui était “théoriquement possible” devient “économiquement testable”.
Le RLVR fonctionne comme ça : tu définis un score vérifiable, tu laisses le modèle explorer, tu renforces ce qui améliore le score.
Simple à dire. Mais ça demande de l’inférence. Beaucoup d’inférence.
En pratique, les “active params” déterminent surtout le coût de calcul par token, tandis que les “total params” déterminent surtout la barrière mémoire (et donc la taille du monde nécessaire pour servir le modèle efficacement).
Si ton modèle ne tient pas dans un monde, chaque tentative coûte cher. S’il tient, tu peux itérer. Tu peux boucler. Tu peux industrialiser le progrès.
La question de 2026 n’est pas “quel nouveau benchmark”.
C’est : que se passe-t-il quand les boucles qui marchaient sur les petits modèles commencent à tourner sur les grands ?
On traversera peut-être 2026 sans voir de rupture dans nos interactions.
Mais quelque part, des équipes examinent les mêmes chiffres que nous. Elles calculent ce qui tient maintenant dans un monde. Et lancent des boucles qu’elles n’auraient pas pu lancer avant.
Les années pivots commencent rarement par une annonce. Elles commencent quand quelque chose devient possible.