L’idée à retenir
Avec QLoRA :- le modèle de base reste quantifié
- les adaptateurs LoRA sont entraînés par-dessus
- vous gardez un coût mémoire plus bas qu’avec un modèle non quantifié
Deux façons de démarrer
Option 1 : convertir d’abord un modèle
Option 2 : partir directement d’un modèle déjà quantifié
mlx-community, cette deuxième option est souvent la plus simple.
Quand QLoRA vaut le coup
QLoRA est utile si :- un modèle non quantifié est trop lourd pour votre machine
- vous voulez tester plusieurs expériences à moindre coût
- vous privilégiez le pragmatisme à la pureté du pipeline
Réglages de départ raisonnables
Voici une base prudente :- le nombre d’itérations
- le nombre de couches LoRA
- la taille du modèle
Après l’entraînement
Testez d’abord les adaptateurs :Ce qu’il faut surveiller
- les erreurs mémoire
- la stabilité de la validation
- la différence réelle entre le modèle de base et le modèle adapté