Skip to main content
Quand vous dites “je veux un LLM local sur mon Mac”, vous pouvez en réalité viser des besoins très différents :
  • tester rapidement un modèle
  • exposer une API locale
  • intégrer un modèle open weight dans une app
  • utiliser le modèle système Apple dans Swift
La bonne option dépend d’abord de votre objectif, pas du benchmark du moment.

Les quatre familles à connaître


Comment choisir

Choisissez MLX si

  • vous voulez travailler avec des modèles open weight sur Apple Silicon
  • vous envisagez du fine-tuning
  • vous voulez un workflow Python + Swift
  • vous préférez rester proche de l’écosystème ml-explore

Choisissez Ollama si

  • vous débutez
  • vous voulez lancer un modèle en quelques minutes
  • vous avez surtout besoin d’une API locale simple
  • vous ne voulez pas gérer immédiatement les formats et conversions

Choisissez llama.cpp si

  • vous travaillez déjà avec des modèles GGUF
  • vous voulez un backend très répandu et très portable
  • vous devez faire tourner la même stack sur plusieurs plateformes

Choisissez Foundation Models ou une intégration Swift dédiée si

  • votre vrai produit est une app Apple
  • vous privilégiez l’expérience utilisateur SwiftUI
  • vous voulez d’abord valider un cas d’usage on-device côté app

Le critère le plus important : quel modèle voulez-vous utiliser ?

Avant de choisir un backend, répondez à ces questions :
  1. Le modèle que vous visez existe-t-il déjà en format MLX ?
  2. Est-il disponible en GGUF ?
  3. Voulez-vous le fine-tuner plus tard ?
  4. Votre app doit-elle embarquer le modèle ou simplement appeler un serveur local ?
Exemples :
  • si vous voulez surtout des modèles mlx-community, MLX est un choix naturel
  • si vous avez déjà un pipeline centré sur GGUF, llama.cpp ou Ollama sera souvent plus direct
  • si vous voulez une app Swift utilisant le modèle Apple, Foundation Models est plus simple qu’un modèle custom

Scénarios concrets

Vous voulez…Point de départ recommandé
Tester plusieurs modèles depuis le terminalOllama ou mlx_lm.chat
Servir un modèle local à une app via HTTPOllama ou mlx_lm.server
Fine-tuner un modèle localementMLX / mlx-lm
Ajouter une fonctionnalité IA dans une app Swift avec le minimum de frictionFoundation Models
Intégrer un modèle open weight précis dans une app AppleMLX Swift ou un serveur local dédié

Recommandation simple pour un développeur Swift

Si vous découvrez encore l’IA locale, suivez cet ordre :
  1. Testez quelques modèles avec mlx-lm ou Ollama.
  2. Vérifiez si votre cas d’usage peut être couvert par Foundation Models.
  3. Passez à MLX Swift seulement si vous avez vraiment besoin d’un modèle open weight spécifique dans l’app.
Cet ordre évite de commencer par l’option la plus coûteuse en intégration.