2024-04-05 Gretel releases largest open source Text-to-SQL dataset to accelerate AI model training
Toutes les notes de veille : + Sommaire veille
Date de récolte : 2024-04-05-vendredi
Introducing world's largest synthetic open-source Text-to-SQL dataset
Mon avis :
Il est essentiel de disposer de données d'entraînement de qualités pour élaborer de nouveaux modèles, en particulier open source. Cette nouvelle s'inscrit dans la tendance observée depuis plusieurs mois à favoriser la génération de données synthétiques (créées par un modèle) comme base d'entraînement de modèles.
Gretel a utilisé son outil Gretel Navigator pour générer un dataset synthétique de qualité, en recourant à l'approche "LLM as a judge" (le LLM étant comme la plupart du temps GPT4). Gretel estime que la fiabilité de GPT4 est équivalente à celle d'un annotateur humain (du point de vue de l'inter-annotator agreement).