LLMs locaux sur Mac — vue d'ensemble

Quand vous dites “je veux un LLM local sur mon Mac”, vous pouvez en réalité viser des besoins très différents :

tester rapidement un modèle
exposer une API locale
intégrer un modèle open weight dans une app
utiliser le modèle système Apple dans Swift

La bonne option dépend d’abord de votre objectif, pas du benchmark du moment.

Les quatre familles à connaître

MLX / mlx-lm

Le meilleur point d’entrée si vous voulez rester dans l’écosystème Apple et garder la main sur le modèle.

Ollama

Le plus simple pour tester vite, exposer une API locale et changer de modèle facilement.

llama.cpp

Une base solide si vous travaillez aussi hors Mac ou si vous utilisez beaucoup le format GGUF.

Swift on-device

À considérer si votre destination finale est une app Apple en Swift.

Comment choisir

Choisissez MLX si

vous voulez travailler avec des modèles open weight sur Apple Silicon
vous envisagez du fine-tuning
vous voulez un workflow Python + Swift
vous préférez rester proche de l’écosystème ml-explore

Choisissez Ollama si

vous débutez
vous voulez lancer un modèle en quelques minutes
vous avez surtout besoin d’une API locale simple
vous ne voulez pas gérer immédiatement les formats et conversions

Choisissez llama.cpp si

vous travaillez déjà avec des modèles GGUF
vous voulez un backend très répandu et très portable
vous devez faire tourner la même stack sur plusieurs plateformes

Choisissez Foundation Models ou une intégration Swift dédiée si

votre vrai produit est une app Apple
vous privilégiez l’expérience utilisateur SwiftUI
vous voulez d’abord valider un cas d’usage on-device côté app

Le critère le plus important : quel modèle voulez-vous utiliser ?

Avant de choisir un backend, répondez à ces questions :

Le modèle que vous visez existe-t-il déjà en format MLX ?
Est-il disponible en GGUF ?
Voulez-vous le fine-tuner plus tard ?
Votre app doit-elle embarquer le modèle ou simplement appeler un serveur local ?

Exemples :

si vous voulez surtout des modèles mlx-community, MLX est un choix naturel
si vous avez déjà un pipeline centré sur GGUF, llama.cpp ou Ollama sera souvent plus direct
si vous voulez une app Swift utilisant le modèle Apple, Foundation Models est plus simple qu’un modèle custom

Scénarios concrets

Vous voulez…	Point de départ recommandé
Tester plusieurs modèles depuis le terminal	Ollama ou `mlx_lm.chat`
Servir un modèle local à une app via HTTP	Ollama ou `mlx_lm.server`
Fine-tuner un modèle localement	MLX / `mlx-lm`
Ajouter une fonctionnalité IA dans une app Swift avec le minimum de friction	Foundation Models
Intégrer un modèle open weight précis dans une app Apple	MLX Swift ou un serveur local dédié

Recommandation simple pour un développeur Swift

Si vous découvrez encore l’IA locale, suivez cet ordre :

Testez quelques modèles avec mlx-lm ou Ollama.
Vérifiez si votre cas d’usage peut être couvert par Foundation Models.
Passez à MLX Swift seulement si vous avez vraiment besoin d’un modèle open weight spécifique dans l’app.

Cet ordre évite de commencer par l’option la plus coûteuse en intégration.

Générer avec mlx-lm

CLI, Python et serveur local.

Ollama et llama.cpp

Les alternatives les plus courantes.

Inférence

Fine-Tuning

Intégration Apps

LLMs locaux sur Mac — vue d'ensemble

Les quatre familles à connaître

MLX / mlx-lm

Ollama

llama.cpp

Swift on-device

Comment choisir

Choisissez MLX si

Choisissez Ollama si

Choisissez llama.cpp si

Choisissez Foundation Models ou une intégration Swift dédiée si

Le critère le plus important : quel modèle voulez-vous utiliser ?

Scénarios concrets

Recommandation simple pour un développeur Swift

Générer avec mlx-lm

Ollama et llama.cpp

Inférence

Fine-Tuning

Intégration Apps

​Les quatre familles à connaître

MLX / mlx-lm

Ollama

llama.cpp

Swift on-device

​Comment choisir

​Choisissez MLX si

​Choisissez Ollama si

​Choisissez llama.cpp si

​Choisissez Foundation Models ou une intégration Swift dédiée si

​Le critère le plus important : quel modèle voulez-vous utiliser ?

​Scénarios concrets

​Recommandation simple pour un développeur Swift

Générer avec mlx-lm

Ollama et llama.cpp

Les quatre familles à connaître

Comment choisir

Choisissez MLX si

Choisissez Ollama si

Choisissez llama.cpp si

Choisissez Foundation Models ou une intégration Swift dédiée si

Le critère le plus important : quel modèle voulez-vous utiliser ?

Scénarios concrets

Recommandation simple pour un développeur Swift