2024-06-05 Modèles d'embeddings multimodaux
Date de récolte : 2024-06-05-mercredi
Nomic.ai et Jina.ai publient des modèles d'embeddings multimodaux open source
Mon avis :
Nomic.ai, une entreprise spécialisée dans les embeddings, publie des extensions de ses modèles d'embeddings classiques (orientés texte) pour l'image. La particularité de ces modèles est qu'ils partagent le même espace latent que les modèles textes déjà publiés, ce qui signifie que les gens qui ont déjà utilisé leurs modèles pour embedder du texte peuvent utiliser les vecteurs calculés pour rechercher dans des images. Je trouve que c'est une approche très maline, qui permet de construire une loyauté à leur "marque" et de générer de l'usage très vite ! Soulignons que les modèles sont publiés sous une licence non commerciale (pas vraiment open source donc).
Dans le même temps, Jina, une firme allemande spécialisée dans la fabrication de modèles d'embeddings, publie également un modèle bimodal (texte et image) de bonne qualité en open source. Leur approche est différente, puisqu'ils affirment "Experimental results indicate that [pretraining a BERT-like text encoder] yields superior final performance compared to starting from a text embedding model that has already been fully trained using contrastive learning".
D'après les évaluations publiées par Nomic, néanmoins, c'est leurs modèles qui surpassent aussi bien ceux de Jina que ceux d'OpenAI :
Model | Imagenet 0-shot | Datacomp Avg. | MTEB Avg. |
---|---|---|---|
Nomic Embed v1 | 70.70 | 56.7 | 62.39 |
Nomic Embed v1.5 | 71.0 | 56.8 | 62.28 |
OpenAI CLIP ViT B/16 | 68.34 | 56.26 | 43.82 |
OpenAI Text Embedding 3 Small | N/A | N/A | 62.26 |
Jina CLIP v1 | 59.08 | 52.20 | 60.12 |
À noter que le billet de blog de Nomic donne d'intéressants détails techniques sur l'approche retenue pour entraîner le modèle, et le volume de données nécessaire (1,5 milliards de paires image / texte descriptif).
C'est excitant de voir de tels développements dans le domaine des embeddings. Les embeddings sont extrêmement utiles pour toutes sortes de tâches, et peuvent donner une impression de "magie" sans avoir à mobiliser des LLM, lourds et parfois sources d'hallucinations.
Un regret néanmoins, ces modèles ne sont entraînés qu'en anglais...