2024-06-05 Recherche sémantique avec DuckDB

Date de récolte : 2024-06-05-mercredi

A Hybrid information retriever with DuckDB

Mon avis :

J'ai sélectionné cet article avant tout parce que j'adore les embeddings et j'adore DuckDB, et qu'il combine les deux.

L'article présente la recherche hybride, c'est-à-dire qui combine recherche sémantique s'appuyant sur un embedding de chaque document sur lequel porte la recherche (ce qui ne marche qu'à condition que le modèle d'embedding soit capable de bien résumer un document en un seul vecteur), et recherche lexicale s'appuyant sur le plein texte de chaque document. DuckDB est utilisé comme backend pour stocker les embeddings, le plein texte, et calculer les meilleurs documents candidats pour chaque recherche.