Skip to main content
mAIxs Logo

AI-tools / Lokale AI modellen

Lokale AI in je bedrijf: alleen als het echt nodig is

Lokale AI klinkt aantrekkelijk: data binnen, geen Amerikaanse cloud, geen rekeningen per token. In de praktijk is het pas verstandig bij strenge compliance, hoge volumes of expliciete klanteisen. Wij helpen kiezen tussen lokaal, EU-cloud en cloud-frontier, en bouwen wat past.

Tooling

Ollama, LM Studio, vLLM of llama.cpp

Er zijn vier tools die wij bij vrijwel elke lokale uitrol tegenkomen. Welke past wanneer.

Ollama

Snelle start op laptop of server, beheer via simpele CLI.

Eén commando om een model te draaien op je MacBook, Windows-PC of Linux-server. Voor pilot-fase en kleine teams uitstekend. Voor schaal in productie kijken we naar vLLM.

LM Studio

Eindgebruikers die lokaal willen experimenteren zonder terminal.

Grafische interface waarmee mensen op hun eigen werkstation modellen kunnen downloaden en chatten. Goed voor AI-geletterdheid-trajecten en pilot bij power-users.

vLLM

Productie-inzet met meerdere concurrent gebruikers.

Inference-server die GPU's efficiënt benut. Wat wij doorgaans inzetten zodra een lokale AI-collega meer dan een handvol gebruikers tegelijk moet bedienen. Hoge throughput, lage kosten per query.

llama.cpp

Maximale efficiëntie en draaien op CPU's, edge-devices of bescheiden GPU's.

Een C++ inference-engine waarop veel andere tools zijn gebouwd. Wij gebruiken het voor situaties waar je geen dikke GPU hebt of een model op een lokale machine wilt embedden.

Eerlijk overzicht

Sterke en zwakke punten

Sterke punten

  • Klantdata verlaat je perimeter niet, ook niet richting een Westerse cloud
  • Geen kosten per query: lekker bij hoog volume en repetitieve AI-collega's
  • Geen leveranciers-afhankelijkheid: het model draait door als OpenAI of Anthropic morgen omvalt
  • Voor sectoren met strenge eisen (zorg, juridisch, defensie, kritieke infrastructuur) vaak de enige route

Beperkingen

  • Frontier-modellen blijven cloud-only: lokaal zit je structureel een generatie achter
  • Hardware-kosten lopen snel op (één serieuze GPU-server vanaf circa €10.000 tot €30.000)
  • Beheerlast: updates, monitoring, security, redundantie zijn jouw verantwoordelijkheid
  • Stroomverbruik en koeling tellen mee in TCO (Total Cost of Ownership)

Wanneer wel

Vier situaties waar lokale AI de juiste keus is

Medische en juridische klantdata

Patiëntdossiers, advocaat-cliëntgeprivilegieerde communicatie, gerechtelijke documenten. Voor veel sectoren is doorgifte naar een externe cloud, ook EU, niet wenselijk of toegestaan.

NIS2-essentiële sectoren

Energie, vervoer, drinkwater, gezondheid. Ketenbeveiliging en data-soevereiniteit zijn voor deze entiteiten geen optie. Een lokaal model binnen je eigen perimeter is voor sommige use cases de enige verdedigbare keus.

Klantcontracten met expliciete uitsluiting

Steeds meer enterprise- en overheidsklanten verbieden in hun voorwaarden dat hun data via Amerikaanse, Britse of Chinese clouds verwerkt wordt. Lokaal opereren maakt je acceptabel als leverancier.

Hoge query-volumes met repetitieve taken

Bij meer dan een paar miljoen tokens per dag, of bij AI-collega's die continu draaien, kantelt de business case naar lokaal. Vaste hardware-kosten worden voorspelbaarder dan groeiende API-rekeningen.

Wanneer niet

Drie situaties waar cloud verstandiger is

Je hebt het sterkste model nodig

Voor lastige redenering, code op senior-niveau of meertalige nuance wint cloud-frontier (Claude, GPT, Gemini) doorgaans van het beste lokale model. Voor de zwaarste cases is dat de verstandige keus.

Lage volumes, snelle start

Tot een paar duizend queries per dag betaal je vaak minder aan een cloud-API dan aan je eigen hardware en beheer. Wij rekenen het door voordat we lokaal adviseren.

Geen IT-capaciteit voor beheer

Lokaal vraagt monitoring, updates, herstel bij uitval. Heb je geen interne IT-functie en geen partner die het beheert, dan is cloud doorgaans verstandiger.

Hardware

Eerlijke indicatie hardware-kosten

De grootste verrassing voor klanten is meestal niet de aanschaf, maar het beheer. Hieronder een realistisch beeld per schaal.

Pilot of single-user

MacBook Pro M-serie met 32 tot 64 GB, of een Windows-PC met een consumer-GPU.

Doorgaans al aanwezig. Modellen tot 8B draaien werkbaar.

Team van 5 tot 20 gebruikers

Server met één enterprise-GPU (bijvoorbeeld L40S of vergelijkbaar) op EU-hosting.

€800 tot €1.800 per maand inclusief beheer, of €15.000 tot €25.000 eenmalig.

Schaal: 20 tot 100 gebruikers, of zware AI-collega

Server met meerdere GPU's (bijvoorbeeld 2 tot 4 L40S of H100), redundant.

€2.500 tot €6.000 per maand inclusief beheer, of €40.000 tot €120.000 CAPEX.

Hardware-prijzen en GPU-beschikbaarheid bewegen sterk. Wij geven voor jouw situatie een actuele berekening met meerdere scenario's.

Aanpak mAIxs

Hoe wij lokale AI in je bedrijf inrichten

  1. 01

    Compliance-driver scherp krijgen

    Wij beginnen met de vraag wáárom lokaal nodig is. AVG-eisen, NIS2-classificatie, contractuele restricties, sectorregels. Soms volstaat een EU-cloud van een Westerse aanbieder. Vaak niet.

  2. 02

    Modelkeuze passend bij hardware

    We kiezen een model dat past bij je hardware en use case. Een 8B-model op een MacBook voor pilots, een 70B-model op een GPU-server voor productie. Geen overhardware.

  3. 03

    Hosting binnen je perimeter

    Wij zetten Ollama, vLLM of een vergelijkbare stack op binnen je eigen netwerk of bij een EU-hosting partner die contractueel binnen je vereisten valt. Monitoring en back-up regelen we mee.

  4. 04

    Hybride met cloud waar het mag

    Vaak combineren we lokaal voor gevoelige data met cloud-frontier voor niet-gevoelige zware taken. Een AI-collega die afhankelijk van het soort vraag het juiste model kiest. Wij beheren en breiden uit via het abonnement.

Indicatie kosten

Wat kost lokale AI in de praktijk

Hardware en hosting

Van enkele honderden euro per maand bij pilots tot circa €6.000 per maand bij productie-schaal. Modellen zelf zijn gratis (open-weight) of zeer goedkoop per token.

Implementatie en beheer via mAIxs

Sprint met vaste prijs voor pilot-opzet en compliance-check. Doorlopend beheer (updates, monitoring, modelvervanging) via het mAIxs-abonnement. Vraag de actuele tarieven op via een kennismaking.

Veelgestelde vragen

Lokale AI modellen, kort beantwoord

Wanneer is lokale AI verplicht onder de AVG of NIS2?+

De AVG verplicht geen specifieke hosting, maar wel adequate waarborgen rond verwerkers en doorgifte. Voor bijzondere persoonsgegevens (medisch, justitie, biometrie) en NIS2-essentiële sectoren is de praktische keus vaak: lokaal of EU-cloud onder strikte voorwaarden. Wij toetsen per use case wat verdedigbaar is en documenteren het in een risico-analyse.

Welke open-weight modellen zijn in 2026 goed genoeg voor productie?+

Voor algemene zakelijke taken (samenvatten, mail, kennisbank, eerste-lijn klantvragen) zijn modellen rond 7B tot 14B vaak voldoende: Llama 4 en opvolgers, Mistral, Qwen, Gemma. Voor complexere redenering en code-werk kijken we naar 70B+ klassen. Frontier-niveau (Claude, GPT, Gemini) is lokaal nog niet beschikbaar.

Wat zijn de echte kosten van lokale AI versus cloud?+

Lokaal heeft hoge vaste kosten (hardware, beheer, stroom) en lage variabele kosten. Cloud is omgekeerd. Het kantelpunt ligt afhankelijk van het model en de hardware doorgaans tussen 1 en 10 miljoen tokens per dag. Wij rekenen het voor jouw situatie door voordat we adviseren.

Kunnen we lokaal en cloud combineren?+

Ja, en in onze ervaring is dat vaak de slimste opzet. Lokaal voor gevoelige data en hoog volume, cloud-frontier voor incidentele zware redeneer-taken. Een AI-collega kiest per vraag het juiste model. Wij bouwen die routering en monitoren ze.

Hebben we eigen IT-mensen nodig voor lokale AI?+

Niet per se. Wij beheren lokale en EU-gehoste AI-stacks voor klanten zonder eigen IT-afdeling als onderdeel van het mAIxs-abonnement. Wel raden wij aan dat één persoon binnen je organisatie aanspreekpunt is voor wijzigingen en incidenten.

Is lokale AI in jouw situatie nodig?

Begin bij de gratis AI-scan. Vier minuten en je krijgt onze eerlijke inschatting of lokaal, EU-cloud of cloud-frontier de juiste keus is.