Waarom "offline" een kwestie van architectuur is, geen vinkje op een checklist
Offline dicteren, ook wel offline spraakherkenning, offline spraak naar tekst of lokale spraak naar tekst genoemd, beschrijft spraak-naar-tekstsoftware waarin het spraakmodel op je eigen hardware draait, niet op een externe server. Het onderscheid zit in de architectuur, niet in een vinkje in een menu met privacy-instellingen.
De meeste dicteer-apps die privacy adverteren, zijn nog steeds cloud-apps. Ze hebben een privacyverklaring, een auditcertificaat, een optie voor een Business Associate Agreement, een belofte om niet op je data te trainen. Dat zijn beleidsmatige controles. Ze hangen ervan af dat de aanbieder doet wat hij heeft gezegd, en van jouw vertrouwen dat hij dat ook zal doen.
Een echt offline dicteer-app heeft geen privacyverklaring in diezelfde zin. De audio kan geen server bereiken omdat er geen netwerkaanroep is. Het model kan geen data lekken omdat het draait in een proces op je hardware, waarbij je besturingssysteem bepaalt wie het kan zien.
De privacygarantie is de architectuur, geen belofte.
Dit verschil komt in de ergste gevallen naar voren. Toen het nalevingsplatform Delve betrokken raakte bij een onderzoek naar auditfraude in maart 2026 (volgens een op Substack gepubliceerd onderzoek dat 494 vermeend door het platform gegenereerde SOC 2-rapporten analyseerde en 99,8% met identieke modeltekst vond), ontdekten klanten van meerdere dicteerbedrijven in de cloud dat de SOC 2-certificeringen die ze veronderstelden te hebben, waren gegenereerd door een tool die in wezen identieke rapporten produceerde. De getroffen bedrijven reageerden door van auditor te wisselen (Wispr Flow nam A-LIGN aan als nieuwe auditor en Drata als nieuw nalevingsplatform, volgens de analyse van het incident door Voibe Resources). De klanten hadden geen enkele manier om te controleren wat er aanvankelijk daadwerkelijk was geaudit. Offline tools hebben dit probleem simpelweg niet, omdat er niets te auditen valt in de inferentielaag.
Een apart en breed verspreid incident betrof Wispr Flow dat elke paar seconden schermafbeeldingen van het actieve venster van de gebruiker maakte en die naar een AI-infrastructuur van derden stuurde als onderdeel van een functie voor "context awareness" (gedocumenteerd door een op Reddit gepubliceerde analyse van netwerkverkeer in 2025, waarbij de CTO van de aanbieder publiekelijk excuses aanbood nadat het bedrijf aanvankelijk de gebruiker die het probleem had gemeld had geblokkeerd, volgens de berichtgeving van Embertype). De app heeft de implementatie sindsdien aangepast om de tekst bij de cursor te lezen via de accessibility-API's in plaats van volledige schermafbeeldingen (volgens de huidige documentatie van Wispr Flow), maar het achterliggende punt blijft geldig: dicteer-apps in de cloud kunnen dingen doen die je niet ziet, en je komt het later te weten, wanneer je het te weten komt.
Een subtielere variant van hetzelfde probleem bestaat in apps die zichzelf als "lokaal" verkopen. SuperWhisper verwerkt de audio op het apparaat, en dat deel klopt. Maar hun Smart Modes-functie stuurt bij elke dictatie extra context naar de cloud-infrastructuur van Modal: de naam van de app waarin je typt, de inhoud van het tekstveld met focus, je klembord en systeem-identifiers, waaronder de naam van de computer en de tijdzone. Dat is gedocumenteerd in de system prompt die ze in hun eigen netwerkverkeer blootleggen. Als je dicteert in een juridisch document, in een patiëntnotitie of in een privégesprek in Slack, verlaat die context je machine, ook al verlaat de audio die niet. "Lokale audio" en "alles lokaal" zijn verschillende claims.
Niets hiervan betekent dat dicteren in de cloud een fout is. Het betekent dat het vertrouwensmodel anders is. Als je boodschappenlijstjes en Slack-berichten dicteert, is het vertrouwensmodel waarschijnlijk prima. Als je klantwerk, medische notities, juridische concepten, interne bedrijfsinformatie of iets dicteert dat je niet op de server van iemand anders zou willen zien blijven staan, is het architectuurantwoord echt beter dan het beleidsantwoord.
Hoe lokale Whisper werkt, en wat "in RAM" echt betekent
Moderne offline dicteer-apps gebruiken de Whisper-modelfamilie, oorspronkelijk in 2022 als open source uitgebracht door OpenAI en tegenwoordig ontwikkeld in meerdere implementaties, waaronder whisper.cpp, faster-whisper, MLX Whisper en andere. De kleinere varianten (tiny, base, small) zijn tussen de 75MB en 500MB op de schijf en draaien op consumentenhardware in realtime.
De pijplijn, in concrete stappen:
- Stap 1. Je drukt op een sneltoets. De app opent een audiostream vanaf je microfoon in 16 kHz mono PCM, het formaat dat Whisper verwacht. De samples stromen naar een rollende buffer in RAM, doorgaans een paar megabyte per minuut spraak. Geen bestanden op de schijf.
- Stap 2. Een spraakactiviteitsdetector (VAD) bekijkt de stream en bepaalt wanneer de spraak ophoudt. De Silero VAD is de gangbare keuze: een klein ONNX-model dat in milliseconden per segment draait en een "zin afgerond"-signaal afgeeft na ongeveer een halve seconde stilte.
- Stap 3. Elke afgesloten zin wordt overgedragen aan het Whisper-model. Whisper draait op je CPU of GPU als een proces gekoppeld aan de app zelf, zonder communicatie tussen processen, zonder netwerkaanroep.
- Stap 4. Het model produceert teksttokens. Op Apple Silicon kost dat normaal een paar honderd milliseconden voor een zin van 10 seconden; op een moderne Intel-laptop-CPU kost het een paar seconden; op een aparte NVIDIA-GPU is het sneller dan realtime.
- Stap 5. De tekst wordt in je actieve tekstveld geplakt via de standaard tekstinvoer-API van het besturingssysteem. Dezelfde API die je toetsenbord gebruikt.
- Stap 6. Als je de app sluit, herwint het besturingssysteem de buffer. Niets van de opname overleeft het proces. Er wordt niets naar de schijf geschreven, tenzij je expliciet de geschiedenis inschakelt.
In geen van deze stappen zit een netwerkaanroep. Je kunt het controleren met elke gangbare netwerkmonitor: Little Snitch op Mac, Wireshark op elk systeem, of de ingebouwde firewall-logs van je besturingssysteem.
Zo ziet het eruit als structureel patroon, niet als benchmark. Start een van deze apps met een netwerkmonitor open tijdens een dictatie van 60 seconden en je ziet aantallen uitgaande verzoeken binnen het volgende bereik. De exacte cijfers variëren met de build, de feature flags en de authenticatiestatus; het verschil tussen nul en niet-nul is het architectuurpunt:
| App | Uitgaande verzoeken | Wat ze zijn |
|---|---|---|
| SnailText (lokale Whisper) | 0 | Geen. Het model draait in zijn eigen proces; de audio verlaat nooit de RAM. |
| Wispr Flow (Privacymodus aan) | 1 - 2 | Authenticatie-heartbeat naar de backend van de aanbieder. De audio zelf wordt nog steeds naar de cloud gestuurd voor de transcriptie; de Privacymodus schakelt de retentie uit, niet de transmissie. |
| Referentie van STT in de cloud (typisch) | 3 - 12 | Authenticatie, upload van audio (vaak in stukken), download van de transcriptie, telemetrie. Het exacte aantal hangt af van de segmentgrootte en de feature flags. |
Dit is de test waar we altijd op terugvallen als het over "offline" gaat: niet de marketingtekst, niet de privacyverklaring, maar een packet capture tijdens een echte opname. SnailText op nul is de architectuurgarantie. Wispr Flow in Privacymodus op een of twee is eerlijk over zijn opzet, omdat de audio nog steeds een server moet bereiken om getranscribeerd te worden; de Privacymodus bepaalt wat de server bewaart. Een STT in de cloud tussen drie en twaalf is de normale prijs van spraakherkenning als dienst draaien.
Het deel "in RAM" is de specifieke garantie. De inhoud van de RAM blijft niet behouden tussen herstarts. Hij is niet toegankelijk voor andere processen buiten de standaardregels voor procesisolatie van het besturingssysteem. Hij is niet opgenomen in Time Machine-, iCloud- of OneDrive-back-ups, tenzij je apart een functie inschakelt die hem naar de schijf schrijft. Als je de app sluit, verdwijnt de buffer.
De reden om hierop te hameren, is dat het architectuurdetail de echte privacygarantie is. Er is geen beleid dat je hoeft te vertrouwen; er is alleen het codepad, en het codepad kan worden waargenomen.
Het AVG- en HIPAA-verhaal voor offline dicteren
De juridische kaders rond stemgegevens zijn in de loop van 2025 en 2026 flink aangescherpt. Onder de Algemene Verordening Gegevensbescherming van de EU zijn stemopnames persoonsgegevens, en stemafdrukken worden geclassificeerd als bijzondere categorie biometrische gegevens wanneer ze worden verwerkt voor identificatiedoeleinden. De totale AVG-boetes overschreden cumulatief 7,1 miljard euro tot in 2026, met 1,2 miljard euro alleen al in 2025 en een stijging van 40% jaar-op-jaar van de boetes die specifiek verband houden met slecht beheer van stemgegevens (volgens het AVG-nalevingsrapport 2026 van Kiteworks). De Nederlandse Autoriteit Persoonsgegevens alleen al legde Clearview AI een boete van 30,5 miljoen euro op voor schendingen van biometrische gegevens rond gezichtsherkenning.
In de Verenigde Staten zijn de boeteniveaus van de HIPAA bijgewerkt, van kracht sinds 28 januari 2026, naar een structuur waarin individuele schendingen tussen de $145 en $2.190.294 kunnen kosten, afhankelijk van de schuldcategorie, met jaarlijkse maxima van $2.190.294 per type schending. Het risicoanalyse-initiatief van het Office for Civil Rights richtte zich gedurende heel 2025 specifiek op "shadow AI": situaties waarin werknemers AI-tools voor consumenten gebruiken zonder de formele processen voor leveranciersacquisitie en BAA te doorlopen. Dicteren in de cloud dat Protected Health Information verwerkt zonder een getekende Business Associate Agreement is een schending vanaf de eerste transcriptie, ongeacht of er daarna iets misgaat.
Offline dicteren elimineert de meeste van deze faalmodi omdat de data niet van beheerder wisselt. Lokale verwerking betekent:
- Geen Data Processing Agreement nodig met een dicteer-aanbieder, omdat de aanbieder de data niet verwerkt.
- Geen Business Associate Agreement nodig voor de HIPAA, omdat er geen PHI buiten de controle van de covered entity komt.
- Geen beoordeling van grensoverschrijdende gegevensoverdracht, omdat er geen overdracht is.
- Geen Data Protection Impact Assessment voor de stempijplijn (er kan er nog steeds een nodig zijn voor andere delen van je systeem als geheel).
- Geen leveranciersrisicobeheer voor de verwerking van stemgegevens, opnieuw omdat de aanbieder geen stemgegevens verwerkt.
De architectuur zelf is het nalevingsmechanisme. Dat betekent niet dat een gereguleerde organisatie zomaar elke offline dicteer-tool zonder nadenken kan uitrollen: je moet de claims nog steeds verifiëren, de architectuur documenteren en de randgevallen overwegen, zoals crash dumps en update-kanalen. Maar het basisnalevingswerk is radicaal minder dan voor een equivalent in de cloud.
Voor organisaties die al hebben geworsteld met SOC 2-audits van leveranciers, BAA-onderhandelingen en DPA-beoordelingen voor dicteren in de cloud, is de vereenvoudiging het grootste afzonderlijke praktische voordeel van de overstap naar offline.
Geen BAA. Geen DPA. Gewoon een lokaal model.
SnailText verwerkt alles op je apparaat. Onbeperkt gratis tier, zonder account, zonder internet tijdens het dicteren.
Welke dicteer-apps echt offline zijn (een controle)
Vier dicteer-apps draaien standaard volledig offline in 2026: SnailText (Mac en Windows), MacWhisper (alleen Mac), SuperWhisper in lokale modus (Mac en Windows) en Voibe (alleen Mac). Drie apps zijn standaard op de cloud gebaseerd met privacy-opties eroverheen: Wispr Flow, Willow Voice en Speechify. Aqua Voice en de meeste dicteerfuncties van Speechify zijn alleen cloud. De categorie is klein genoeg om concreet te zijn:
| App | Standaard lokaal | Cloud-optie | Mac | Win | Opmerkingen |
|---|---|---|---|---|---|
| SnailText | Ja | Nee (niet in 2026) | ✅ | ✅ | Lokale Whisper + Parakeet. Functiepariteit Mac/Windows vanaf de eerste dag. |
| MacWhisper | Ja | Ja (Pro Plus, optioneel) | ✅ | — | Lokale Whisper voor het transcriberen van bestanden en live dicteren. |
| SuperWhisper | Ja (lokale modus) | Ja (BYOK Pro) | ✅ | ✅ | Alleen de lokale modus ondersteund. Pro voegt BYOK toe voor OpenAI/Anthropic/ElevenLabs. |
| Voibe | Ja | Nee | ✅ | — | Lokale Whisper voor de belangrijkste dicteer-flow. |
| Wispr Flow | Nee | Ja (cloud standaard) | ✅ | ✅ | De Privacymodus schakelt opslag uit, maar de audio wordt nog steeds in de cloud verwerkt. |
| Willow Voice | Nee | Ja (cloud standaard) | ✅ | ✅ | Dicteren op basis van de cloud. |
| Aqua Voice | Nee | Ja (alleen cloud) | ✅ | — | Eigen Avalon-model in de cloud. Goede nauwkeurigheidsbenchmarks. |
Als de offline-garantie voor jou belangrijk is, krimpt de praktische shortlist tot vier apps (wij, MacWhisper, SuperWhisper lokale modus, Voibe). Drie van die vier zijn alleen Mac of Mac-eerst. De enige met pariteit tussen Mac en Windows vanaf de eerste dag, dat zijn wij, wat bevooroordeeld klinkt, dat geven we toe, maar het is de werkelijke staat van de markt.
SnailText - offline dicteren voor Mac en Windows
Gratis tier: onbeperkt Whisper Tiny + Base, zonder account. Nul uitgaande verzoeken tijdens het dicteren, te controleren in je firewall.
Lokale dicteer-apps in 2026 - de vier die echt op je apparaat draaien
"Offline dicteren" en "lokale dicteer-app" beschrijven dezelfde architectuur vanuit twee invalshoeken. Offline benadrukt wat er niet gebeurt (geen heen-en-terug naar de cloud). Lokaal benadrukt waar het model draait (op je CPU, GPU of Neural Engine). Beide termen wijzen naar dezelfde shortlist van vier apps in 2026.
Een lokale dicteer-app betekent dat het spraak-naar-tekstmodel (Whisper, Parakeet of een eigen model van de aanbieder) wordt gedownload als onderdeel van de installatie van de app en bij elke dictatie door je hardware wordt uitgevoerd. Er wordt geen audio verzonden. Er wordt geen transcriptie op afstand opgeslagen. Er is geen account nodig om een transcriptie te krijgen. De aanbieder kan niet zien wat je dicteert, ook al zou hij dat willen, omdat de audio zijn servers nooit bereikt.
Deze eigenschap, te controleren met een netwerkmonitor, niet met een belofte, is de reden waarom gereguleerde beroepen (therapeuten die sessienotities schrijven, advocaten die vertrouwelijk werk opstellen, clinici die PHI documenteren) steeds vaker standaard kiezen voor een lokale dicteer-app in plaats van een cloud-app. Het nalevingskader wordt eenvoudiger: er is geen externe verwerker van de audio omdat de audio nooit wordt verzonden. Je kunt onze specifieke standpunten lezen voor therapeuten, advocaten en op toegankelijkheid gerichte gebruiksscenario's.
Wanneer offline dicteren afwegingen heeft
Offline dicteren heeft vijf praktische afwegingen ten opzichte van STT in de cloud: de kleinere lokale modellen zijn doorgaans 1-7 procentpunten minder nauwkeurig dan de Large-varianten in de cloud bij rumoerige audio of audio met accent, minder gangbare talen hebben een zwakkere ondersteuning door lokale modellen, de inferentie gebruikt de CPU of GPU van je hardware, wat zwaarder weegt op oudere laptops, synchronisatie tussen apparaten vereist bewuste engineering (er zit standaard geen centrale server in de keten) en nauwkeurigheidsverbeteringen komen als software-updates die in maanden te meten zijn, in plaats van continue model-updates in de cloud die in dagen te meten zijn.
Grenzen aan de modelgrootte. De compacte lokale modellen (tiny, base, small) draaien op elke moderne machine, maar zijn minder nauwkeurig dan de grote modellen in de cloud bij zeer rumoerige audio, zeer sterke accenten of minder gangbare talen. Voor schone Engelse audio in een stille kamer is het verschil klein. Voor een spreker met een accent die opneemt in een rumoerig café kan het verschil oplopen tot meerdere procentpunten.
Minder gangbare talen. Whisper is sterker in Engels en in de grote Europese talen. Voor Vietnamees, Bengaals, Telugu en andere talen met minder bronnen kan de nauwkeurigheid van het lokale model aanzienlijk dalen. Cloud-aanbieders die grotere modellen of taalspecifieke finetuning gebruiken, zijn hier vaak in het voordeel.
De rekenkosten zijn je hardware. De inferentie lokaal uitvoeren kost elektriciteit en gebruikt je CPU of GPU. Op Apple Silicon en op moderne aparte GPU's zijn de kosten verwaarloosbaar. Op oudere laptops zonder GPU-versnelling kan het merkbaar zijn en wordt het accuverbruik een reële factor.
Geen live synchronisatie van de modelstatus tussen apparaten. Als je een persoonlijk vocabulaire traint op je Mac, synchroniseert dat niet automatisch met je Windows-machine omdat er geen centrale server in de keten zit. Moderne tools (de onze inbegrepen) synchroniseren via een licentieserver met end-to-end-versleuteling, maar dat is een laag die met opzet moet worden ontworpen.
Updates komen als software-updates. Een STT-aanbieder in de cloud kan zijn model van de ene op de andere dag verbeteren, en je dicteernauwkeurigheid verbetert zonder dat je er iets voor hoeft te doen. Lokale apps werken de nauwkeurigheid bij wanneer ze een nieuwe versie van de app uitbrengen met een nieuw ingebouwd model. De cyclus is in maanden, niet in dagen.
Voor het grootste deel van het dicteren door kenniswerkers in het Engels of in de grote Europese talen zijn deze afwegingen klein. Voor specifieke randgevallen heeft de cloud echte voordelen. Het doel van een offline-first ontwerp is om de standaardkeuze privacy-correct te maken, niet om te beweren dat het altijd de beste technische keuze is.
Hoe je controleert of een willekeurige dicteer-app echt offline is
Controleren of een dicteer-app offline draait, kost ongeveer 60 seconden met standaardtools en zonder bijzondere expertise:
- Installeer een netwerkmonitor. Little Snitch op macOS ($45 eenmalig), GlassWire op Windows (er is een gratis tier) of Wireshark op elk systeem (gratis, open source).
- Sluit de dicteer-app die je wilt testen, en open daarna de netwerkmonitor.
- Open de dicteer-app en start een sessie. Spreek 10-20 seconden.
- Stop de sessie en bekijk het uitgaande-verkeerslog van de netwerkmonitor, gefilterd op het proces van de dicteer-app.
- Een echt offline app genereert nul uitgaande verzoeken tijdens de opname of de transcriptie. De controles op software-updates bij het opstarten en de licentiecontroles zijn normaal en staan los van het dicteren.
SnailText draait, ter referentie, standaard offline op Mac (Apple Silicon, M1 of later) en op Windows (10 en 11, x86-64). Het gratis tier is onbeperkt lokaal dicteren met compacte Whisper-modellen, zonder account, zonder tijdslimieten. De app doet alleen uitgaande aanroepen voor de controles op software-updates bij het opstarten, de Pro-licentiecontrole (eens per sessie op Pro) en optionele anonieme foutrapporten (opt-in, standaard uitgeschakeld).
Het Pro-tier ($7.49/mo · $89/yr, 3 apparaten) voegt grotere Whisper-modellen en Parakeet TDT v3 toe met meertalige ondersteuning, woordenboek- en snippet-uitbreiding, en een terugbetalingsgarantie van 30 dagen.
FAQ
Hoe controleer je of een dicteer-app echt offline is?
Start Little Snitch op macOS, GlassWire op Windows of Wireshark op een van beide systemen en bekijk de netwerkactiviteit terwijl je dicteert. Een echt offline app genereert nul uitgaand verkeer tijdens de opname of de transcriptie. De controles op software-updates bij het opstarten en de licentiecontroles zijn normaal en staan los van het dicteren.
Werkt offline dicteren zonder internet?
Ja. Het model draait volledig op je apparaat. Je kunt dicteren in een vliegtuig, in een café zonder wifi, in een kelder, waar je maar wilt. Het enige dat internet nodig heeft, is de eerste download van de app.
Is lokale Whisper net zo nauwkeurig als Whisper in de cloud?
Het model is dezelfde open source code van OpenAI. Het nauwkeurigheidsverschil zit in de grootte van het model dat draait, niet in waar het draait. Voor schone Engelse audio blijven de lokale Small/Medium en de Large in de cloud binnen een marge van 1-3 procentpunten. Voor audio met accent of rumoer kan het verschil oplopen tot 3-7 punten.
Is offline dicteren conform de HIPAA?
Lokale Whisper die volledig op je apparaat draait, is de eenvoudigste weg naar HIPAA-naleving bij steminvoer, omdat er geen Protected Health Information buiten je controle komt. Er is geen Business Associate Agreement nodig omdat er geen business associate is die de stemgegevens verwerkt. Je moet de data nog steeds correct beheren op je eigen apparaat (versleuteling in rust, toegangscontroles, audit-logs zoals je organisatie vereist), maar de risicocategorie van data in transit is geëlimineerd.
Wat is de Privacymodus van Wispr Flow?
De Privacymodus van Wispr Flow schakelt de opslag van data en de training van hun model uit. Hij verandert niets aan het feit dat de audio nog steeds naar hun servers wordt gestuurd voor de transcriptie. De architectuur is cloud-zonder-retentie, niet lokaal. Beide kunnen redelijke keuzes zijn, maar het zijn verschillende keuzes.
Stuurt SnailText ooit iets?
We doen uitgaande netwerkaanroepen voor: controles op software-updates (je kunt ze uitschakelen bij Instellingen), de Pro-licentiecontrole (alleen Pro-gebruikers, eens per sessie) en optionele anonieme foutrapporten (standaard uitgeschakeld, je kiest ervoor om ze in te schakelen). We sturen nooit audio, transcripties of iets van wat je dicteert.
Wat is de beste app voor offline spraakherkenning in 2026?
De beste app voor offline spraakherkenning hangt af van je platform en je prioriteiten. Op Mac en Windows bieden SnailText en SuperWhisper lokale inferentie met Whisper en GPU-versnelling. MacWhisper is alleen Mac, maar heeft een sterke flow voor het transcriberen van bestanden. Voibe is alleen Mac. AirTypes is alleen Mac en Linux (Windows nog niet beschikbaar). Voor pure dicteernauwkeurigheid zonder enige afhankelijkheid van de cloud zijn SnailText en SuperWhisper de sterkste opties met pariteit tussen platforms. SnailText voegt een onbeperkt gratis tier toe zonder account.
Kan ik offline spraakherkenning doen zonder GPU?
Ja. De modellen Whisper Tiny en Base draaien in realtime op de CPU alleen - een moderne laptop rondt een zin van 10 seconden af in 1-3 seconden zonder enige GPU. Het gratis tier van SnailText bevat deze modellen zonder limieten. Als je een geïntegreerde GPU hebt (Intel Iris, geïntegreerde AMD Radeon), kunnen Vulkan op Windows en Metal op Mac zelfs geïntegreerde graphics aanzienlijk versnellen. Een aparte GPU (NVIDIA, AMD) brengt de latency onder de 300ms bij de grootste modellen.