MLX Community sur Hugging Face

MLX Community est l’endroit le plus simple pour trouver des modèles déjà convertis pour MLX. Au lieu de partir d’un modèle Hugging Face brut puis de le convertir vous-même, vous pouvez souvent utiliser directement une variante prête à l’emploi.

Ouvrir MLX Community

Parcourir les modèles disponibles et leurs variantes.

Pourquoi commencer ici

MLX Community vous fait gagner du temps sur trois points :

le modèle est déjà dans un format compatible MLX
les variantes quantifiées sont souvent déjà publiées
la carte du modèle vous aide à repérer rapidement l’usage visé

Pour un développeur moyen, c’est le meilleur point de départ avant de parler conversion ou quantification manuelle.

Comment lire le nom d’un modèle

Prenons cet exemple :

mlx-community/Llama-3.2-3B-Instruct-4bit

Vous pouvez le découper ainsi :

mlx-community : l’organisation Hugging Face
Llama-3.2 : la famille de modèles
3B : la taille approximative
Instruct : la variante faite pour suivre des consignes
4bit : la variante quantifiée pour réduire la mémoire

Quand vous débutez, privilégiez en général :

une variante Instruct
une taille modérée
une quantification 4bit

Les familles que vous croiserez le plus souvent

Llama

Une famille généraliste très présente dans les exemples et les tests. Bon choix pour comprendre un workflow local classique.

Mistral

Souvent apprécié pour son bon équilibre entre qualité, taille et simplicité d’usage.

Qwen

Souvent intéressant si vous travaillez en multilingue ou sur des tâches de code.

Phi

Une bonne famille pour des modèles compacts, donc utile pour tester vite ou fine-tuner sur une machine plus limitée.

DeepSeek et modèles spécialisés

À réserver à un besoin plus précis. Commencez par un modèle généraliste si vous découvrez encore le comportement des LLMs locaux.

Modèles vision-langage

Utiles si vous devez combiner texte et image. Vérifiez bien l’outil associé, car l’inférence passe souvent par un package dédié comme mlx-vlm.

Comment choisir sans vous perdre

Pour découvrir MLX

Prenez un modèle compact, instruct et quantifié en 4bit.

Pour un assistant généraliste local

Passez à un modèle plus grand si votre machine le supporte et si la qualité du petit modèle devient une vraie limite.

Pour du fine-tuning

Choisissez un modèle que vous pouvez entraîner confortablement sur votre machine avant de penser à la qualité absolue.

Pour une app Swift

Demandez-vous d’abord si Foundation Models couvre le besoin. Si oui, évitez d’embarquer un modèle custom trop tôt.

Télécharger et utiliser un modèle

Depuis la CLI

mlx_lm.generate \
  --model mlx-community/Mistral-7B-Instruct-v0.3-4bit \
  --prompt "Bonjour"

Depuis Python

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Llama-3.2-3B-Instruct-4bit")
response = generate(model, tokenizer, prompt="Explique MLX simplement.", max_tokens=150)
print(response)

Télécharger localement

huggingface-cli download mlx-community/Mistral-7B-Instruct-v0.3-4bit \
  --local-dir ./models/mistral-7b

Quand convertir vous-même un modèle

Ne convertissez un modèle que si :

il n’existe pas déjà dans MLX Community
vous avez besoin d’une variante précise
vous voulez publier votre propre conversion

Sinon, utilisez d’abord une version existante. C’est plus rapide et plus simple à valider.

Quantification

Comprendre quand et comment convertir un modèle.

Générer du texte

Utiliser le modèle avec mlx-lm.

Démarrer

Modèles

Ressources

Ouvrir MLX Community

Pourquoi commencer ici

Comment lire le nom d’un modèle

Les familles que vous croiserez le plus souvent

Comment choisir sans vous perdre

Pour découvrir MLX

Pour un assistant généraliste local

Pour du fine-tuning

Pour une app Swift

Télécharger et utiliser un modèle

Depuis la CLI

Depuis Python

Télécharger localement

Quand convertir vous-même un modèle

Quantification

Générer du texte

Démarrer

Modèles

Ressources

Ouvrir MLX Community

​Pourquoi commencer ici

​Comment lire le nom d’un modèle

​Les familles que vous croiserez le plus souvent

​Comment choisir sans vous perdre

​Pour découvrir MLX

​Pour un assistant généraliste local

​Pour du fine-tuning

​Pour une app Swift

​Télécharger et utiliser un modèle

​Depuis la CLI

​Depuis Python

​Télécharger localement

​Quand convertir vous-même un modèle

Quantification

Générer du texte

Pourquoi commencer ici

Comment lire le nom d’un modèle

Les familles que vous croiserez le plus souvent

Comment choisir sans vous perdre

Pour découvrir MLX

Pour un assistant généraliste local

Pour du fine-tuning

Pour une app Swift

Télécharger et utiliser un modèle

Depuis la CLI

Depuis Python

Télécharger localement

Quand convertir vous-même un modèle