MoE au niveau des poids — une première mondiale
Chaque voie de Mosaic contient plusieurs banques de poids ternaires. Le routeur ne choisit pas seulement la voie — il choisit aussi quelle banque utiliser dans cette voie. C'est du Mixture-of-Experts, mais au niveau le plus bas : les poids eux-mêmes.
Les Mixture-of-Experts sont la technique secrète des plus grands modèles.
GPT-4, Mixtral, Switch Transformer — tous utilisent des experts.
Mais ils le font au niveau des couches, avec des GPU à 40 000€.
Dispenser le fait au niveau des poids ternaires, sur un CPU standard.
Même coût par token. Capacité multipliée. Architecture brevetable.
C'est du MoE qui tient dans votre poche.