SnailText
PT

Ditado para Mac

Software de ditado para Mac - voz para texto em qualquer app, sem nuvem

Pressione um atalho. Fale. O texto aparece onde está o seu cursor. Funciona no Slack, Notion, VS Code, Mail, em qualquer lugar que você digita. O áudio fica no seu Mac.

Por Evgenii Balabanov, fundador do SnailText · Publicado

A versão curta

Ditado para Mac - também chamado de software de ditado para Mac ou programa de ditado para Mac - significa voz para texto rodando localmente no Apple Silicon através do motor Whisper. O Dictation integrado da Apple não tem limite rígido de duração segundo a documentação do Apple Support, mas para automaticamente depois de 30 segundos de silêncio - as pausas para pensar contam - e só funciona de forma confiável dentro de um subconjunto de apps. As ferramentas locais de terceiros rodam continuamente, suportam modelos Whisper maiores com qualidade bem melhor em conteúdo técnico e com sotaque, e processam tudo no dispositivo usando aceleração de GPU Metal nos chips série M. O hardware mínimo realista é o M1; no M3 e mais novos, o Whisper Large v3 roda a múltiplos do tempo real. O SnailText é um dos poucos apps com paridade de recursos entre Mac e Windows desde o primeiro dia. Se você chegou aqui procurando por voz para texto no Mac, nossa página dedicada de voz para texto compara o Apple Dictation com as alternativas baseadas em Whisper em detalhe.

Apple Dictation vs SnailText, estruturalmente

O macOS vem com ditado integrado. Para uso curto e casual dentro do Notes ou Messages, ele serve. Para trabalho sustentado, tem limites estruturais que as ferramentas de terceiros existem para resolver. A tabela abaixo traz diferenças no nível do produto, não benchmarks de precisão - estamos segurando estes últimos até publicarmos uma metodologia reproduzível.

Diferenças estruturais entre Apple Dictation e SnailText, maio de 2026.
Recurso Apple Dictation SnailText
Duração da gravação Para automaticamente depois de 30 segundos de silêncio, segundo a documentação da Apple (sem limite rígido de duração) Ilimitada - roda enquanto o atalho estiver pressionado ou até você apertá-lo de novo
Onde funciona Apps nativos da Apple e um subconjunto de apps de terceiros que aderem via a API de entrada de texto do sistema Qualquer campo de texto em qualquer app, via atalho global + colar - Slack, VS Code, Cursor, Telegram, terminais, campos web
Tamanho do modelo Modelo compacto treinado pela Apple, não selecionável pelo usuário Escolha do Whisper Tiny ao Large v3 (e Parakeet TDT no Pro) - escolha o tamanho que se ajusta ao seu equilíbrio entre precisão e latência
Vocabulário personalizado Não editável pelo usuário além do que os modelos da Apple já conhecem Dicionário para nomes próprios e nomes de produtos; snippets para expansão de texto padrão (Pro)
Atalho Fixo em Fn-Fn ou o único modificador que você escolher; a ativação é cancelada em muitos apps de terceiros Option+Space global (configurável); não rouba o foco do app ativo
Garantia de offline O "Enhanced Dictation" baixa um modelo local para uso offline; as configurações padrão variam conforme a versão do macOS e o idioma Sempre offline por design. Sem opção de nuvem, sem toggle de opt-out para esquecer

A oferta da Apple é melhor entendida como uma conveniência do sistema. O SnailText é a ferramenta que você usa quando o ditado faz parte de como você realmente trabalha.

Desempenho do ditado no Apple Silicon, em resumo

Faixas indicativas de benchmarks Metal de whisper.cpp de terceiros (Voicci 2026, PromptQuorum 2026, análise da DEV Community no Mac M4). Estas não são medições feitas sob uma metodologia fixa do SnailText - vamos publicar isso separadamente quando estiver finalizado. A latência real por hardware varia com a temperatura, a carga em segundo plano e a build do modelo.

Chip Apple Silicon Whisper Small Whisper Medium Whisper Large v3 Turbo
M1 (base) Tempo real No limite do tempo real Mais lento que tempo real
M2 Pro 3-4× tempo real 2-3× tempo real 1,5-2× (60s de áudio em ~2,8s)
M3 MacBook Air 5-6× 3-4× ~7× em conteúdo longo
M4 10-15× 6-8× 3-5×
M5 Pro 15-20× 8-12× ~10× tempo real

"Tempo real" significa que a transcrição termina no mesmo tempo de relógio que a gravação. Qualquer coisa mais rápida que 1× serve para ditado ao vivo. O modelo tiny no M4 roda a cerca de 27× o tempo real em clipes curtos, segundo os testes da DEV Community.

Como "Nx tempo real" realmente parece no cursor

Os multiplicadores acima são fáceis de interpretar errado. Em termos simples, aqui está o padrão prático no Apple Silicon: qualquer chip série M consegue transcrever um ditado de um minuto em bem menos tempo do que levou para gravá-lo. Quanto mais rápido o chip e menor o modelo, mais curta a espera. No M3 e M4 com Whisper Medium ou Large v3 Turbo, a espera por um clipe de um minuto cai para poucos segundos. No M1 e M2 com Whisper Small, a espera ainda fica bem abaixo da duração da gravação - confortavelmente interativa para ditado normal.

O atraso que você de fato percebe é menor do que esses multiplicadores sugerem. O SnailText roda o modelo em frases fechadas enquanto você fala (inferência em streaming em máquinas com GPU), então, quando você pressiona o atalho de parar, a maior parte do trabalho já está feita. A espera de ponta a ponta no Apple Silicon costuma ser de um a dois segundos para qualquer frase com menos de trinta segundos.

Estamos deliberadamente não publicando tabelas de benchmark de tempo de relógio nesta página ainda. Uma comparação reproduzível precisa de uma metodologia fixa - mesmo áudio de amostra, mesma build do modelo, mesmo estado do hardware - e ainda não finalizamos e lançamos a nossa. Quando o fizermos, os números vão ficar em uma página de metodologia separada que este artigo vai referenciar.

Neural Engine, Metal, CPU - quem está de fato fazendo o trabalho?

Uma pergunta que recebemos muito: ele usa o Apple Neural Engine (ANE)? Resposta curta: não, e tudo bem. A versão mais longa:

  • O whisper.cpp roda no Metal, a API de computação de GPU de uso geral da Apple. É assim que os números de velocidade acima acontecem. O backend Metal foi contribuído por engenheiros da Apple e é o mais refinado dos três caminhos de GPU do whisper.cpp.
  • O Neural Engine é um acelerador separado, específico do ANE, que vem em todo Mac com Apple Silicon. Ele é rápido, mas só pode ser acessado através dos frameworks privados da própria Apple (Core ML, MLX) - não existe um backend ggml público que o use. Tanto o MLX quanto o WhisperKit conseguem usar o ANE; o whisper.cpp não, até 2026.
  • A CPU é o caminho de fallback quando o Metal não está disponível (Macs Intel mais antigos, ambientes virtualizados). Ainda funciona, só mais devagar - o Whisper Small em um MBP Intel de 2020 roda a cerca de tempo real, o que está no limite para ditado ao vivo.
  • A memória unificada é o motivo de o Metal funcionar tão bem no Apple Silicon. Em sistemas x86 com GPUs dedicadas, o buffer de áudio precisa ser copiado pelo barramento PCIe para a VRAM antes que a GPU possa acessá-lo. No série M, a GPU lê as mesmas páginas físicas de memória que a CPU. Sem cópia.

A resposta prática é que o caminho Metal no série M é rápido o bastante para que a ausência de um backend ANE não importe para a latência do ditado. Se você precisa especificamente do Neural Engine para eficiência de energia na bateria, o WhisperKit e o MLX são os projetos para olhar.

Por que o Dictation integrado da Apple não basta para o uso diário

O Apple Dictation funciona. Ele roda no dispositivo em qualquer Mac com chip M1 ou mais novo, a transcrição é aceitável para rajadas curtas, e não custa nada. Para uma mensagem de texto rápida ou uma busca de uma linha, ele dá conta do recado.

Ele deixa de bastar no momento em que você tenta usá-lo para trabalho de verdade.

A primeira coisa que você esbarra é o corte por silêncio. A documentação da Apple diz que o Dictation no Apple Silicon não tem limite rígido de duração, mas o sistema para automaticamente depois de 30 segundos de silêncio detectado - e "silêncio" inclui as pausas naturais que você faz enquanto compõe. Não há configuração para estender o corte. Ditar um e-mail com mais de dois parágrafos significa reativar duas ou três vezes. Várias discussões nos próprios fóruns de suporte da Apple observam que a sensibilidade do corte mudou ao longo das atualizações do iOS 18 e do macOS Tahoe.

A segunda é a precisão em qualquer coisa técnica. O Apple Dictation vai bem em fala clara e geral e é visivelmente pior em código, jargão, inglês com sotaque e vocabulário específico de domínio - justamente os tipos de conteúdo em que desenvolvedores, médicos e advogados de fato usam ditado. As ferramentas de terceiros que rodam modelos modernos da classe Whisper são bem melhores no mesmo conteúdo. Estamos segurando números específicos de WER nesta página até publicarmos uma metodologia de benchmark reproduzível - outros já publicaram suas próprias comparações (VoicePrivate, Voicci, PromptQuorum têm testes de 2026), mas preferimos não citar números que não reproduzimos sob condições controladas.

A terceira é o limite da integração. O Apple Dictation funciona dentro de apps da Apple e na maioria dos campos de texto nativos do macOS. Ele não tem um fluxo consistente de atalho para colar em apps web, apps Electron ou terminais. Você acaba desativando-o na metade dos lugares onde quer usá-lo.

Existe uma boa ferramenta de ditado integrada para uso casual, e existe uma categoria separada de ferramentas feitas para quem digita para viver. A categoria existe porque a ferramenta casual nunca foi projetada para ser a segunda.

O que um app de ditado de verdade para Mac faz

Um app de ditado para Mac é uma ferramenta que converte voz falada em texto digitado em qualquer aplicação através de um atalho global, com o modelo de reconhecimento de fala rodando localmente no Apple Silicon. Os três componentes que definem a categoria são: um atalho universal que funciona em todo app do macOS, incluindo apps web, apps Electron e terminais; um modelo de reconhecimento de fala com mais de 95% de precisão em áudio limpo em inglês; e um pipeline de processamento local que mantém o áudio no seu dispositivo.

Um atalho que funciona da mesma forma em todo app. Você o pressiona uma vez, a gravação começa. Você o pressiona de novo, a gravação para. Seu texto transcrito aparece na posição do cursor, qualquer que seja o app em que você esteja. Sem configuração específica por app, sem árvores de menu, sem espera.

Um modelo de reconhecimento de fala que é de fato bom. O plano gratuito dos apps de ditado modernos para Mac vem com modelos Whisper compactos que atingem mais de 95% de precisão em áudio limpo em inglês. Os planos pagos adicionam modelos maiores, idiomas adicionais e pós-processamento para remoção de palavras de preenchimento e pontuação. O objetivo é não ter que pensar no modelo de jeito nenhum depois que ele está rodando.

Um pipeline local que não precisa da internet. O buffer de áudio fica na RAM, o modelo roda na GPU ou no Neural Engine do seu Mac, e o texto aparece no campo de texto ativo. Nada sai da sua máquina, a menos que você explicitamente opte por um recurso na nuvem.

Essa terceira parte é a que define a categoria. Quando você tem uma ferramenta que roda o modelo no seu próprio hardware, a história da privacidade muda de "prometemos não usar mal seu áudio" para "seu áudio não sai do dispositivo". É um argumento diferente, com consequências diferentes.

O Apple Silicon torna o Whisper local genuinamente rápido

Rodar modelos Whisper grandes localmente no Windows geralmente significa instalar o CUDA, encontrar uma GPU NVIDIA compatível e ajustar tamanhos de batch. No Mac, o mesmo fluxo já vem pronto.

O motor whisper.cpp, que move a maioria dos apps de ditado modernos para Mac, incluindo o nosso, compila com aceleração de GPU Apple Metal por padrão no Apple Silicon. O Metal é a API de GPU da Apple e, nos chips série M, ele fica diretamente sobre o pool de memória unificada, o que significa que os pesos do modelo e o buffer de áudio vivem na mesma memória física que o código da sua aplicação. Não há cópia de memória entre CPU e GPU antes de cada inferência. Esse único detalhe de arquitetura é o motivo pelo qual um MacBook Air M1 consegue rodar o Whisper Large v3 Turbo em tempo real, enquanto o mesmo modelo em um laptop Windows normalmente precisa de uma GPU NVIDIA dedicada.

Em qualquer Mac com Apple Silicon do M1 em diante, você pode rodar o modelo Whisper small ou medium localmente e nunca sentir a latência. O texto aparece no momento em que você para de falar. A diferença entre um Air M1 e um M5 Pro é se você também consegue rodar os modelos grandes sem pensar, não se o ditado funciona ou não.

O outro lado dessa história são os Macs Intel mais antigos. A própria documentação da Apple deixa claro que os Macs Intel rodando o Apple Dictation enviam áudio para os servidores da Apple, porque o caminho no dispositivo só funciona no Apple Silicon. Os apps de terceiros que usam whisper.cpp também precisam da aceleração Metal para serem usáveis em tempo real. O hardware mínimo realista para ditado local moderno no Mac é o M1 ou mais novo.

Local vs nuvem - por que importa para o ditado diário

Uma ferramenta de ditado na nuvem envia cada fala para um servidor remoto, transcreve lá e devolve o texto. O modelo rodando na nuvem costuma ser maior do que o que você consegue rodar localmente, o que pode significar uma pequena vantagem de precisão em condições com ruído. O custo de latência é a ida e volta, tipicamente 200-800ms em uma conexão boa, mais em uma ruim.

Uma ferramenta de ditado local roda o modelo no seu Mac. A latência é só o tempo de inferência, que no Apple Silicon costuma ser mais rápido do que a ida e volta a um servidor na nuvem. O áudio fica no seu dispositivo. Não há custo de inferência além da eletricidade para rodar o chip.

Para o ditado diário, a abordagem local se acumula ao longo do tempo. Se você dita 8000 palavras por dia no trabalho, está rodando milhares de chamadas de inferência. Uma ferramenta local processa isso de graça em hardware que você já tem. Uma ferramenta na nuvem ou cobra uma assinatura ou queima créditos de API que você comprou da OpenAI ou de outro provedor. Ao longo de um ano, a diferença de custo para um usuário pesado fica na casa das centenas de dólares, e a diferença de privacidade está na categoria de "tudo o que você disse o ano inteiro, em algum servidor" versus "nada saiu do seu dispositivo".

Ainda há casos em que a nuvem tem vantagem. Para sotaques muito carregados com os quais os modelos locais compactos têm dificuldade, ou para idiomas menos comuns como vietnamita ou bengali, onde o Whisper local tem lacunas de precisão conhecidas, os modelos maiores na nuvem ainda superam o que um app local consegue fazer hoje. A ferramenta certa depende do que você de fato dita.

Como construímos o ditado para Mac e Windows ao mesmo tempo

O SnailText roda em Mac e Windows a partir de uma única base de código, com paridade de recursos desde o primeiro dia. A maioria dos apps de ditado para Mac saiu primeiro no Mac e adicionou o Windows anos depois: o MacWhisper é só para Mac, o SuperWhisper lançou o Windows em novembro de 2025 (cerca de dois anos depois da versão macOS), o Voibe e o Aqua Voice são só para Mac. O mercado de apps de ditado para Mac está maduro há anos; o lado Windows é uma expansão recente.

Nós seguimos um caminho diferente. O SnailText foi construído desde o primeiro dia como um app Tauri com um único núcleo em Rust compartilhado entre Mac e Windows. O mesmo motor whisper.cpp roda nas duas plataformas, com aceleração Metal no Mac e Vulkan no Windows. O atalho, a interface da overlay, o histórico, o dicionário, os snippets - tudo isso é idêntico. Não há lacuna de recursos do tipo "app Mac primeiro, app Windows depois".

Para quem só usa Mac, essa decisão de design não importa muito. Para quem usa os dois, ou trabalha em uma casa ou equipe onde alguns estão no Mac e outros no Windows, ou que pode trocar de plataforma no futuro, ela significa uma ferramenta em vez de duas.

O que você de fato faz com ditado no Mac, no dia a dia

Os usuários de ditado no Mac passam a maior parte do tempo de entrada em cinco casos de uso: respostas de e-mail e Slack (maior frequência, economiza cerca de uma hora por dia de trabalho para o trabalho típico de conhecimento), primeiros rascunhos de escrita longa a 2-3× a velocidade de digitação, tarefas de linguagem natural ligadas a código como mensagens de commit e prompts para agentes de IA, notas de voz que pulam o fluxo de gravar-transferir-transcrever, e uso de acessibilidade durante a recuperação de LER/DORT ou como preferência permanente de entrada.

Respostas de e-mail e Slack. Caso de maior frequência. Uma resposta de duas frases que levaria 30 segundos para digitar leva 5 segundos para ditar. Ao longo de um dia de trabalho com 40-80 respostas curtas, você economiza uma hora.

Escrita longa. Primeiros rascunhos de posts de blog, ensaios, documentação ou notas. A maioria dos escritores dita mais rápido do que digita, muitas vezes em 2-3×. A transcrição fica bruta e precisa de edição, mas a edição é mais rápida do que produzir o primeiro rascunho teria sido.

Ditado ligado a código. Não escrever código caractere por caractere, mas escrever as partes em linguagem natural do trabalho com código: mensagens de commit, descrições de PR, comentários explicando lógica complicada, prompts para assistentes de código de IA como Cursor ou Claude. Nossa página para vibe-coders cobre esse caso de uso em detalhe.

Notas de voz para texto. Você está passeando com o cachorro, tem uma ideia, pressiona o atalho, fala por 30 segundos. O texto está numa nota quando você volta. O fluxo do Apple Voice Memos exige que você grave, transfira, transcreva e revise. Uma ferramenta de ditado em tempo real remove esses passos.

Acessibilidade. Lesões no pulso, LER/DORT, recuperação de cirurgia, ou simplesmente preferir a voz como entrada principal. Uma boa ferramenta de ditado local é uma ferramenta de acessibilidade de verdade, e o aspecto offline importa mais aqui do que em qualquer outro lugar.

Como começar no Mac

O download está na nossa página de download para Mac. Distribuímos um DMG notarizado, então não há aviso do Gatekeeper na primeira execução no macOS Sequoia ou Tahoe. É necessário Apple Silicon (M1 ou mais novo). O app tem cerca de 150MB e descompacta para cerca de 600MB com o modelo padrão Whisper Small incluído.

A primeira execução pede duas permissões: acesso ao microfone (óbvio) e acesso de acessibilidade (para que possamos colar texto em outros apps). As duas são solicitações de permissão padrão do macOS. Não pedimos mais nada.

O atalho padrão é Option+Space. Você pode mudá-lo em Configurações se ele conflitar com algo. Pressione o atalho uma vez para começar, pressione de novo para parar. O texto aparece no seu cursor.

O plano gratuito é ditado ilimitado com modelos locais compactos, sem necessidade de conta, sem limites de tempo. O plano Pro ($7.49/mo · $89/yr, 3 dispositivos) adiciona modelos maiores, suporte a vários idiomas, expansão de snippets, entradas de dicionário e uma garantia de devolução do dinheiro de 30 dias na primeira cobrança paga.

FAQ

Isto funciona em Macs com Intel?

Tecnicamente sim, em forma reduzida. O motor whisper.cpp funciona em CPUs Intel, mas a velocidade de inferência sem aceleração Metal é bem mais lenta. O ditado em tempo real com o modelo small é aceitável no limite em um iMac Intel topo de linha de 2019 ou 2020. Recomendamos Apple Silicon (M1 ou mais novo) para a experiência de fato descrita nesta página.

Qual a diferença em relação ao Apple Dictation?

O Apple Dictation é integrado ao macOS, roda no dispositivo no Apple Silicon e é gratuito. A documentação da Apple diz que não há limite rígido de duração, mas o Dictation para automaticamente depois de 30 segundos de silêncio - e as pausas para pensar contam. Também não há extensibilidade (sem vocabulário personalizado, sem snippets, sem personalização de atalho além do toggle básico). O SnailText roda modelos maiores da classe Whisper, não tem corte por silêncio, suporta vocabulário personalizado e snippets, e funciona com um atalho unificado em todos os apps.

Vocês enviam meu áudio para algum lugar?

Não. O Whisper local roda no nosso app, no seu Mac. O buffer de áudio fica na RAM durante a sessão de gravação e não é gravado em disco. Não enviamos áudio para nenhum servidor em nenhum modo, gratuito ou pago. STT na nuvem opcional para usuários Pro com casos de áudio difíceis está no nosso roteiro, mas não está no produto hoje.

E quanto a HIPAA, GDPR, setores regulados?

O caminho mais simples para a conformidade no ditado por voz é não transmitir o áudio para lugar nenhum. O Whisper local faz exatamente isso - sem necessidade de Business Associate Agreement, sem Data Processing Agreement, sem avaliação de transferência de dados além-fronteiras. Nossa página de Privacidade cobre os detalhes legais; a versão curta é que dados que nunca saem do seu dispositivo são os dados mais fáceis de manter em conformidade.

Como a precisão se compara à do Wispr Flow ou SuperWhisper?

Para áudio limpo em inglês, nossos modelos locais compactos igualam o Apple Dictation (cerca de 95%) e os modelos medium e large igualam o Wispr Flow e o SuperWhisper Pro (cerca de 97-99%). Para sotaques muito carregados ou ruído de fundo, os modelos na nuvem ainda têm uma leve vantagem sobre os modelos locais na nossa categoria. Para todo o resto, a diferença é pequena o suficiente para que as questões de privacidade e custo importem mais.

Funciona com vocabulário personalizado?

Sim, no Pro. Você pode adicionar termos personalizados (o nome da sua empresa, nomes de produtos, os nomes dos seus filhos) e expansões de snippets (digite um gatilho, receba uma frase mais longa). Ambos são aplicados durante a transcrição, não depois.

E quanto ao ditado em vários idiomas?

O plano Pro suporta mais de 25 idiomas com o Parakeet TDT v3, que é cerca de 10× mais rápido que o Whisper para idiomas europeus. O plano gratuito é só em inglês, com os modelos Whisper compactos.

Como ditar em um Mac?

De duas formas. A rota integrada: abra Ajustes do Sistema, ative Teclado → Ditado, depois pressione o atalho de ditado (Control duas vezes, por padrão) dentro de qualquer campo de texto e comece a falar. O Apple Dictation roda no dispositivo no Apple Silicon, mas para depois de 30 segundos de silêncio e só funciona de forma confiável em alguns apps. A rota de terceiros: instale um app de ditado local como o SnailText, pressione seu atalho global em qualquer app, fale, e o texto é colado no seu cursor - sem corte por silêncio, modelos Whisper maiores, e áudio que nunca sai do seu Mac.

Qual é o melhor software de ditado para Mac?

Depende do que você precisa. Para uso gratuito, integrado e ocasional, o Apple Dictation serve. Para transcrição de arquivos e reuniões, o MacWhisper é a ferramenta Mac mais querida. Para ditado ao vivo contínuo em qualquer app, com modelos Whisper locais maiores e sem corte por silêncio, uma ferramenta dedicada como o SnailText é a melhor escolha - e, ao contrário da maioria das opções, ela roda em Mac e Windows com a mesma experiência. A escolha certa depende de você querer ditado integrado ocasional, transcrição de arquivos ou ditado ao vivo o dia inteiro.

Experimente no seu Mac

O plano gratuito é ilimitado com modelos locais compactos, sem necessidade de conta. Se você quer modelos maiores, suporte a vários idiomas, dicionário e snippets, o Pro é $7.49/mo · $89/yr. Reembolso de 30 dias na primeira cobrança paga.