Multiplication de capacité

DISPENSER

MoE au niveau des poids — une première mondiale

DÉFILER
1 coût. N capacités.
Même coût par token, capacité multipliée
Les modèles classiques utilisent tous leurs poids pour chaque token.
Dispenser sélectionne la banque de poids optimale pour chaque entrée.
Le routeur décide. Le modèle s'adapte. Le coût reste fixe.

Comment ça marche

Chaque voie de Mosaic contient plusieurs banques de poids ternaires. Le routeur ne choisit pas seulement la voie — il choisit aussi quelle banque utiliser dans cette voie. C'est du Mixture-of-Experts, mais au niveau le plus bas : les poids eux-mêmes.

01
Banques multiples
Chaque voie (conv, SSM, attention, FFN) possède plusieurs jeux de poids ternaires. Pas de copies — chaque banque est unique et spécialisée.
02
Routage à deux niveaux
Le routeur décide : (1) quelle voie utiliser, et (2) quelle banque de poids dans cette voie. Deux décisions, un seul passage.
03
Coût constant
Chaque token n'utilise qu'une seule banque par voie. Le coût de calcul reste identique, quelle que soit le nombre de banques.

Dispenser vs MoE classique

MoE classique (Switch, Mixtral)
Experts = couches entières dupliquées
Chaque expert : millions de paramètres
Routage par couche uniquement
Nécessite des GPU haut de gamme
Fonctionne qu'à grande échelle
DISPENSER
Experts = banques de poids ternaires
Chaque banque : quelques Ko
Routage par voie ET par banque
Fonctionne sur CPU — zéro GPU
Fonctionne même à 633K paramètres

Résultats réels

1.94
BITS PAR BYTE
100K étapes d'entraînement
633K
PARAMÈTRES
5x plus petit que Mosaic standard
15
TOKENS/SEC
CPU uniquement, inférence rapide
2.5
MÉGAOCTETS
Checkpoint complet avec banques

L'expertise sans le coût

Les Mixture-of-Experts sont la technique secrète des plus grands modèles. GPT-4, Mixtral, Switch Transformer — tous utilisent des experts. Mais ils le font au niveau des couches, avec des GPU à 40 000€.

Dispenser le fait au niveau des poids ternaires, sur un CPU standard. Même coût par token. Capacité multipliée. Architecture brevetable.

C'est du MoE qui tient dans votre poche.