Document investisseur — confidentiel

MOSAIC

La plus petite machine pensante du monde

DÉFILER
600 kilo-octets.
Un modèle de langage complet
Plus petit qu'une photo. Plus petit qu'une chanson.
Il parle. Il calcule. Il réfléchit sur sa propre pensée.

Résultats mesurés

1.57
BITS PAR BYTE
Modèle de base 200k étapes
3M
PARAMÈTRES
Poids ternaires {-1, 0, +1}
63.6
TOKENS/SEC
C++ avec KV-cache, CPU uniquement
4x
COMPRESSION
vs FP32 — natif, pas quantifié
5
VOIES
Architecture multi-primitifs unique
0
MULTIPLICATIONS
Ternaire : additionner, soustraire, ignorer

Pour comprendre la différence

GPT-4 ~1,800,000,000,000 params • cluster GPU • millions $
LLaMA 7B 7,000,000,000 params • GPU A100 • ~100K$
TinyLlama 1,100,000,000 params • GPU • ~10K$
MOSAIC 3,000,000 params • CPU • 0$ GPU • il parle.

600 000x plus petit que GPT-4.
Et il sait quand il ne sait pas.

Il parle.

Sortie réelle du modèle. Non éditée.

mosaic v0.1 — inférence
[modèle chargé : 600Ko | 3M params | ternaire | 63.6 tok/s C++]
>>> Dis-moi qui tu es.
je suis mosaic, un petit modèle de langage entraîné de zéro
 
>>> Qu'est-ce qui te rend différent ?
on ne m'a pas donné de connaissances. je les ai apprises.
 
>>> Es-tu intelligent ?
je sais quand je ne sais pas. c'est peut-être un début.
_

Un écosystème, pas un modèle

Mosaic est le moteur. Ces spinoffs sont les produits.

ATOME
IA embarquée sur microcontrôleurs. Ampoules, voitures, montres, capteurs industriels. Zéro cloud.
Moteur C construit
DISPENSER
Mixture-of-Experts au niveau des poids. Capacité multipliée sans coût supplémentaire par token. Architecture inédite.
Entraîné — bpb 1.94
MOSAIC V3
Passage à l'échelle : 22M paramètres, 234M tokens d'entraînement. bpb 1.34 — déjà meilleur que V2 après 200K steps.
En entraînement sur GPU
Moteur C++
Inférence native avec KV-cache. 63.6 tokens/sec sur CPU. Zéro dépendance, zéro multiplication flottante.
Compilé et fonctionnel

L'intelligence n'est pas une question de taille

Le monde construit des modèles toujours plus gros. Toujours plus chers. Toujours plus gourmands en énergie. Mosaic prend le chemin inverse : l'architecture ternaire, multi-voies, avec routage appris — une approche fondamentalement différente qui crée de l'intelligence avec des ordres de grandeur moins de ressources.

Les poids sont notre propriété intellectuelle. L'architecture est notre innovation. Les résultats sont mesurables et reproductibles.