Depuis deux ans, l'intelligence artificielle générative a bouleversé les usages en entreprise. Rédaction, synthèse, analyse de documents, code, support client : les cas d'usage se multiplient. Mais dans la grande majorité des cas, les données transitent par les serveurs d'OpenAI, Google ou Anthropic — aux États-Unis.
Il existe une autre voie : faire tourner ses propres modèles de langage, sur ses propres serveurs, en France. C'est ce qu'on appelle l'inférence locale. Et en 2026, ce n'est plus réservé aux laboratoires de recherche.
Pourquoi faire tourner un LLM en local ?
Les API cloud ont un avantage évident : on s'inscrit, on obtient une clé, ça marche. Mais cette simplicité a un coût que beaucoup d'entreprises sous-estiment :
- Confidentialité — chaque prompt envoyé à une API cloud contient potentiellement des données sensibles. Contrats, emails internes, documents RH, code propriétaire : tout passe par des serveurs tiers, soumis au Cloud Act
- Coûts — les API facturent au token. Un usage intensif (RAG sur une base documentaire, agents automatisés, chatbot interne) peut vite représenter plusieurs milliers d'euros par mois. Un serveur dédié a un coût fixe, prévisible
- Latence — un modèle local répond en millisecondes, pas en secondes. Pour des workflows automatisés qui chaînent plusieurs appels, la différence est massive
- Disponibilité — pas de dépendance à un service externe. Pas de rate limiting, pas de panne OpenAI un vendredi soir, pas de changement de conditions d'utilisation du jour au lendemain
- Conformité — pour les secteurs réglementés (santé, défense, finance, collectivités), héberger le modèle en France simplifie considérablement la conformité RGPD
Open source ≠ moins bon
Les modèles open source ont rattrapé leur retard à une vitesse spectaculaire. Llama 3 70B (Meta), Mixtral 8x7B (Mistral AI), Qwen 2.5 (Alibaba) ou Deepseek-V2 rivalisent avec GPT-4 sur de nombreuses tâches. Et contrairement aux modèles propriétaires, vous pouvez les auditer, les fine-tuner sur vos données, et les faire tourner sans envoyer un seul octet à l'extérieur.
Les briques d'une stack IA locale
Faire tourner un LLM en local, c'est assembler quelques composants. Tous sont open source et installables sur un serveur dédié :
1. Le moteur d'inférence
C'est le logiciel qui charge le modèle en mémoire et génère les réponses. Trois options se détachent :
- Ollama — le plus simple. Une seule commande (
ollama run llama3) et le modèle tourne. API compatible OpenAI, idéal pour débuter et intégrer rapidement à des outils existants - vLLM — optimisé pour le débit. Utilise le PagedAttention pour servir plusieurs requêtes en parallèle. Le choix pour les cas d'usage à fort volume (chatbot public, traitement par lots)
- llama.cpp — le couteau suisse. Tourne sur CPU, GPU AMD, GPU NVIDIA. Très léger, très optimisé, supporte la quantification pour réduire l'empreinte mémoire des modèles
2. L'interface utilisateur
Vos équipes n'ont pas vocation à taper des commandes curl. Il leur faut une interface web intuitive, type ChatGPT :
- AnythingLLM — notre préféré. Interface web complète avec gestion des espaces de travail, upload de documents pour le RAG, connexion à Ollama ou n'importe quelle API compatible. Multi-utilisateurs, avec gestion des permissions. Open source, auto-hébergeable
- Open WebUI — interface légère compatible Ollama, avec historique des conversations, modèles personnalisés et partage de prompts
AnythingLLM se démarque par sa capacité à transformer n'importe quel document (PDF, Word, pages web) en base de connaissances interrogeable par le LLM. L'utilisateur pose une question, le modèle répond en s'appuyant sur les documents de l'entreprise — pas sur des données d'entraînement génériques.
3. La base vectorielle (pour le RAG)
Le RAG (Retrieval-Augmented Generation) permet au modèle de puiser dans vos documents pour répondre. Le principe : vos documents sont découpés en fragments, convertis en vecteurs (embeddings), puis stockés dans une base spécialisée. Quand l'utilisateur pose une question, les fragments les plus pertinents sont récupérés et injectés dans le prompt du LLM.
- Qdrant — rapide, léger, API REST et gRPC. Notre choix par défaut pour les déploiements standards
- pgvector — extension PostgreSQL. Si vous avez déjà du PostgreSQL, pas besoin d'ajouter un service supplémentaire
- ChromaDB — simple à déployer, parfait pour le prototypage et les projets de petite taille
- Milvus — pour les gros volumes (millions de vecteurs), avec du sharding et de la réplication
4. L'automatisation
Un LLM seul est utile. Connecté à vos outils métier, il devient puissant. C'est là qu'intervient n8n : workflows visuels qui chaînent le LLM à vos emails, votre CRM, vos bases de données, vos tickets de support. Le tout sans coder.
La question du matériel
Faire tourner un LLM demande de la mémoire. Beaucoup de mémoire. Un modèle de 70 milliards de paramètres (Llama 3 70B) pèse environ 40 Go en quantification Q4. Il faut pouvoir le charger intégralement en mémoire GPU pour obtenir des performances acceptables.
C'est le problème des cartes graphiques classiques : une NVIDIA RTX 4090 plafonne à 24 Go de VRAM. Pour les gros modèles, il faut empiler plusieurs cartes — avec un coût, une consommation électrique et une complexité en conséquence.
L'approche AMD : mémoire unifiée
Chez Datacampus, nos serveurs GPU sont équipés de processeurs AMD Ryzen AI Max+ 395. Leur particularité : 128 Go de mémoire unifiée partagée entre le CPU et le GPU (RDNA 3.5). Plus besoin de jongler avec la VRAM : le modèle se charge dans un espace mémoire unique, accessible directement par le GPU. Llama 3 70B tourne confortablement sur une seule machine, dans un format compact et économe en énergie.
Cas d'usage concrets
Voici ce que nos clients font avec un LLM hébergé en local :
- Base de connaissances interne — AnythingLLM connecté à la documentation interne (procédures, wikis, contrats). Les collaborateurs posent leurs questions en langage naturel et obtiennent des réponses sourcées
- Analyse de documents — extraction automatique d'informations clés dans des PDF, factures, rapports. Classement, résumé, extraction d'entités
- Chatbot support — un assistant qui répond aux questions fréquentes en s'appuyant sur la documentation produit, sans envoyer les échanges client à OpenAI
- Génération de contenu — rédaction de fiches produit, d'emails, de comptes-rendus, en respectant le ton et les règles de l'entreprise
- Agents automatisés — via n8n, des workflows qui trient les emails entrants, qualifient les leads, génèrent des réponses types et escaladent les cas complexes
IA locale vs API cloud : le comparatif
| LLM local | API cloud (GPT, Claude…) | |
|---|---|---|
| Données | Restent en France | Transitent par les US |
| Coût | Fixe (serveur dédié) | Variable (au token) |
| Latence | Faible (réseau local) | Variable (dépend de la charge) |
| Personnalisation | Fine-tuning, prompts système libres | Limitée aux options de l'API |
| Disponibilité | Pas de rate limit | Quotas, pannes possibles |
| Qualité maximale | Très bonne (70B+) | Meilleure (GPT-4, Claude Opus) |
Soyons honnêtes : les meilleurs modèles propriétaires gardent une avance sur les tâches les plus complexes (raisonnement multi-étapes, code avancé). Mais pour 80 % des usages en entreprise — synthèse, classification, extraction, chatbot, RAG — un Llama 3 70B ou un Mixtral fait largement le travail. Et il le fait sans envoyer vos données à l'extérieur.
Comment démarrer
Pas besoin d'une équipe ML de 10 personnes. Voici un parcours réaliste :
- Identifier le cas d'usage — ne cherchez pas à tout automatiser d'un coup. Commencez par un besoin précis : base de connaissances interne, chatbot support, synthèse de documents
- Choisir le modèle — pour du français, Mistral 7B est un excellent point de départ. Pour des tâches plus complexes, Llama 3 70B ou Qwen 2.5 offrent un excellent rapport qualité/ressources
- Déployer l'infrastructure — Ollama + AnythingLLM sur un serveur dédié. C'est opérationnel en quelques heures
- Alimenter la base documentaire — uploadez vos documents dans AnythingLLM, configurez le RAG, testez les réponses
- Ouvrir aux utilisateurs — l'interface web d'AnythingLLM est suffisamment intuitive pour être utilisée sans formation
IA locale hébergée par Datacampus
Déployer un LLM, c'est une chose. Le faire tourner en production — avec les performances, la sécurité et la disponibilité que vos équipes attendent — c'est un autre sujet.
Chez Datacampus, nous proposons des serveurs GPU dédiés avec la stack complète, prête à l'emploi :
- Serveurs AMD Ryzen AI Max+ 395 — 128 Go de mémoire unifiée, GPU RDNA 3.5 intégré, stockage NVMe
- Stack logicielle — Ollama, AnythingLLM, n8n, base vectorielle de votre choix, le tout installé et configuré
- Hébergé au Futuroscope — datacenter Cassin1, énergie 100 % renouvelable, immersion cooling
- Infogéré — mises à jour, sauvegardes, supervision 24/7. Vous utilisez l'IA, nous gérons le serveur
Vos données restent en France, vos modèles tournent sur du matériel dédié, et personne d'autre n'y a accès.