Ollama
Snelle start op laptop of server, beheer via simpele CLI.
Eén commando om een model te draaien op je MacBook, Windows-PC of Linux-server. Voor pilot-fase en kleine teams uitstekend. Voor schaal in productie kijken we naar vLLM.
AI-tools / Lokale AI modellen
Lokale AI klinkt aantrekkelijk: data binnen, geen Amerikaanse cloud, geen rekeningen per token. In de praktijk is het pas verstandig bij strenge compliance, hoge volumes of expliciete klanteisen. Wij helpen kiezen tussen lokaal, EU-cloud en cloud-frontier, en bouwen wat past.
Tooling
Er zijn vier tools die wij bij vrijwel elke lokale uitrol tegenkomen. Welke past wanneer.
Snelle start op laptop of server, beheer via simpele CLI.
Eén commando om een model te draaien op je MacBook, Windows-PC of Linux-server. Voor pilot-fase en kleine teams uitstekend. Voor schaal in productie kijken we naar vLLM.
Eindgebruikers die lokaal willen experimenteren zonder terminal.
Grafische interface waarmee mensen op hun eigen werkstation modellen kunnen downloaden en chatten. Goed voor AI-geletterdheid-trajecten en pilot bij power-users.
Productie-inzet met meerdere concurrent gebruikers.
Inference-server die GPU's efficiënt benut. Wat wij doorgaans inzetten zodra een lokale AI-collega meer dan een handvol gebruikers tegelijk moet bedienen. Hoge throughput, lage kosten per query.
Maximale efficiëntie en draaien op CPU's, edge-devices of bescheiden GPU's.
Een C++ inference-engine waarop veel andere tools zijn gebouwd. Wij gebruiken het voor situaties waar je geen dikke GPU hebt of een model op een lokale machine wilt embedden.
Eerlijk overzicht
Wanneer wel
Patiëntdossiers, advocaat-cliëntgeprivilegieerde communicatie, gerechtelijke documenten. Voor veel sectoren is doorgifte naar een externe cloud, ook EU, niet wenselijk of toegestaan.
Energie, vervoer, drinkwater, gezondheid. Ketenbeveiliging en data-soevereiniteit zijn voor deze entiteiten geen optie. Een lokaal model binnen je eigen perimeter is voor sommige use cases de enige verdedigbare keus.
Steeds meer enterprise- en overheidsklanten verbieden in hun voorwaarden dat hun data via Amerikaanse, Britse of Chinese clouds verwerkt wordt. Lokaal opereren maakt je acceptabel als leverancier.
Bij meer dan een paar miljoen tokens per dag, of bij AI-collega's die continu draaien, kantelt de business case naar lokaal. Vaste hardware-kosten worden voorspelbaarder dan groeiende API-rekeningen.
Wanneer niet
Voor lastige redenering, code op senior-niveau of meertalige nuance wint cloud-frontier (Claude, GPT, Gemini) doorgaans van het beste lokale model. Voor de zwaarste cases is dat de verstandige keus.
Tot een paar duizend queries per dag betaal je vaak minder aan een cloud-API dan aan je eigen hardware en beheer. Wij rekenen het door voordat we lokaal adviseren.
Lokaal vraagt monitoring, updates, herstel bij uitval. Heb je geen interne IT-functie en geen partner die het beheert, dan is cloud doorgaans verstandiger.
Hardware
De grootste verrassing voor klanten is meestal niet de aanschaf, maar het beheer. Hieronder een realistisch beeld per schaal.
Pilot of single-user
MacBook Pro M-serie met 32 tot 64 GB, of een Windows-PC met een consumer-GPU.
Doorgaans al aanwezig. Modellen tot 8B draaien werkbaar.
Team van 5 tot 20 gebruikers
Server met één enterprise-GPU (bijvoorbeeld L40S of vergelijkbaar) op EU-hosting.
€800 tot €1.800 per maand inclusief beheer, of €15.000 tot €25.000 eenmalig.
Schaal: 20 tot 100 gebruikers, of zware AI-collega
Server met meerdere GPU's (bijvoorbeeld 2 tot 4 L40S of H100), redundant.
€2.500 tot €6.000 per maand inclusief beheer, of €40.000 tot €120.000 CAPEX.
Hardware-prijzen en GPU-beschikbaarheid bewegen sterk. Wij geven voor jouw situatie een actuele berekening met meerdere scenario's.
Aanpak mAIxs
Wij beginnen met de vraag wáárom lokaal nodig is. AVG-eisen, NIS2-classificatie, contractuele restricties, sectorregels. Soms volstaat een EU-cloud van een Westerse aanbieder. Vaak niet.
We kiezen een model dat past bij je hardware en use case. Een 8B-model op een MacBook voor pilots, een 70B-model op een GPU-server voor productie. Geen overhardware.
Wij zetten Ollama, vLLM of een vergelijkbare stack op binnen je eigen netwerk of bij een EU-hosting partner die contractueel binnen je vereisten valt. Monitoring en back-up regelen we mee.
Vaak combineren we lokaal voor gevoelige data met cloud-frontier voor niet-gevoelige zware taken. Een AI-collega die afhankelijk van het soort vraag het juiste model kiest. Wij beheren en breiden uit via het abonnement.
Indicatie kosten
Van enkele honderden euro per maand bij pilots tot circa €6.000 per maand bij productie-schaal. Modellen zelf zijn gratis (open-weight) of zeer goedkoop per token.
Sprint met vaste prijs voor pilot-opzet en compliance-check. Doorlopend beheer (updates, monitoring, modelvervanging) via het mAIxs-abonnement. Vraag de actuele tarieven op via een kennismaking.
Veelgestelde vragen
De AVG verplicht geen specifieke hosting, maar wel adequate waarborgen rond verwerkers en doorgifte. Voor bijzondere persoonsgegevens (medisch, justitie, biometrie) en NIS2-essentiële sectoren is de praktische keus vaak: lokaal of EU-cloud onder strikte voorwaarden. Wij toetsen per use case wat verdedigbaar is en documenteren het in een risico-analyse.
Voor algemene zakelijke taken (samenvatten, mail, kennisbank, eerste-lijn klantvragen) zijn modellen rond 7B tot 14B vaak voldoende: Llama 4 en opvolgers, Mistral, Qwen, Gemma. Voor complexere redenering en code-werk kijken we naar 70B+ klassen. Frontier-niveau (Claude, GPT, Gemini) is lokaal nog niet beschikbaar.
Lokaal heeft hoge vaste kosten (hardware, beheer, stroom) en lage variabele kosten. Cloud is omgekeerd. Het kantelpunt ligt afhankelijk van het model en de hardware doorgaans tussen 1 en 10 miljoen tokens per dag. Wij rekenen het voor jouw situatie door voordat we adviseren.
Ja, en in onze ervaring is dat vaak de slimste opzet. Lokaal voor gevoelige data en hoog volume, cloud-frontier voor incidentele zware redeneer-taken. Een AI-collega kiest per vraag het juiste model. Wij bouwen die routering en monitoren ze.
Niet per se. Wij beheren lokale en EU-gehoste AI-stacks voor klanten zonder eigen IT-afdeling als onderdeel van het mAIxs-abonnement. Wel raden wij aan dat één persoon binnen je organisatie aanspreekpunt is voor wijzigingen en incidenten.
Verder lezen
DeepSeek en Qwen open-weight: vaak een logische keus om lokaal te draaien.
Vergelijkingsmatrix en beslisboom: welke AI-tool past bij jouw bedrijf.
OpenAI ChatGPT: volwassen ecosysteem, breed inzetbaar.
Anthropic Claude: sterk in documenten, code en redactie.
Voor bedrijven die in M365 werken: Outlook, Word, Excel, Teams.
Gemini voor Workspace-bedrijven met Gmail, Docs en Sheets.
Begin bij de gratis AI-scan. Vier minuten en je krijgt onze eerlijke inschatting of lokaal, EU-cloud of cloud-frontier de juiste keus is.