Commencez simple : le format chat
Pour un modèle instruct, le format le plus simple à maintenir reste généralement un JSONL avecmessages :
Les autres formats utiles
Selon le workflow, vous verrez aussi :Prompt / completion
Texte brut
Organisation minimale des fichiers
train.jsonl: obligatoirevalid.jsonl: fortement recommandé
Ce qui fait un bon exemple
Un bon exemple :- correspond à un comportement que vous voulez réellement
- est formulé clairement
- ne se contredit pas avec les autres exemples
- reste proche du niveau de détail attendu en production
- mélange plusieurs objectifs
- donne une réponse floue ou approximative
- force un style différent d’une ligne à l’autre
- contient des erreurs que vous espérez “corriger plus tard”
Script simple pour générer un dataset
Toujours valider les fichiers
Un JSONL cassé peut vous faire perdre du temps pour rien. Vérifiez systématiquement vos fichiers avant l’entraînement.Règles de qualité utiles
Gardez un style cohérent
Si vous voulez un assistant concis, toutes vos réponses d’entraînement doivent être concises.Évitez les exemples trop longs
Des exemples très longs consomment vite le contexte et compliquent l’entraînement. Découpez-les si nécessaire.Préférez la diversité utile à la quantité brute
Deux cents bons exemples couvrant bien votre cas d’usage valent souvent mieux que mille variantes répétitives.Ne mélangez pas trop d’objectifs
Si vous voulez à la fois changer le ton, le format de sortie et la connaissance métier, vérifiez que votre dataset n’introduit pas trois comportements contradictoires.Comment savoir si votre dataset est prêt
Posez-vous ces questions :- Est-ce que chaque ligne ressemble à un vrai échange attendu plus tard ?
- Est-ce que la réponse est celle que vous aimeriez montrer à un utilisateur ?
- Est-ce qu’un autre développeur comprendrait le comportement visé en lisant dix lignes au hasard ?