2024-04-16 Firecrawl aspire un site pour le fournir à un LLM

Date de récolte : 2024-04-16-mardi

Turn websites into LLM-ready data

Mon avis :

Ce service propose, à partir d'une simple URL, de crawler un site, et de le restituer en markdown, ce format étant plus adapté à ce qu'un LLM puisse l'ingérer. Ensuite on peut utiliser par exemple des techniques classiques de RAG (Retrieval Augmented Generation) pour que le LLM puisse interagir avec ces contenus.
Le service est payant (et assez cher : ça commence à 50€/mois), sur un modèle d'abonnement mensuel (ce qui peut être surprenant car on ne peut avoir besoin de ce service que ponctuellement), mais l'outil est open source et pourra donc être auto-hébergé, même s'il semble que le code doive encore être un peu réorganisé pour que ce soit possible.

attachments/c7c4862ab4b18c7a4fd04e0a27f55038_MD5.png