Estás en la zona. Octomind está ejecutando una tarea de agente. Claude tiene el contexto arquitectónico. Puedes ver la solución.
Pero tienes que escribirla. Cada palabra. Cada pensamiento. Mientras tus manos están en el teclado, no estás pensando en el problema — estás pensando en escribir.
Este es el cuello de botella del que nadie habla. Las herramientas de codificación con IA eliminaron la barrera sintáctica. Puedes describir lo que quieres en lenguaje natural y obtener código funcional a cambio. Pero el canal de entrada sigue siendo un teclado. Tus pensamientos llegan a la velocidad de un LLM. Tus dedos llegan a la velocidad de escritura.
Esa brecha es donde entra Vext.
Vext 1.1 es voz a texto para Mac que funciona en todas partes — y está diseñado específicamente para cómo trabajamos con la IA. Mantén pulsada una tecla, habla con naturalidad, suéltala. Tus palabras aparecen en el cursor, limpias y listas para usar. Sin nube, sin suscripción, sin cuenta. 24,50 $ una sola vez, para siempre.
El Problema Éramos Nosotros
Déjame retroceder.
Pasamos la mayor parte del día en nuestras propias herramientas. Octomind para ejecuciones de agentes. Claude para decisiones de arquitectura. Claude Code para refactorización. Cursor para implementación. Codex para scripts rápidos. La pila habitual para un estudio de creadores que entrega como un equipo de treinta.
Y cada una de ellas comparte el mismo cuello de botella: escribir.
Puedes describir una refactorización compleja en 10 segundos. Tardas 90 segundos en escribirla. Eso son 80 segundos de fricción por pensamiento. A lo largo de un día de interacción intensa con IA — 50, 60, a veces 100 prompts — esa fricción suma horas.
Probamos las herramientas de voz existentes. La mayoría son solo de transcripción — vuelcan palabras crudas con muletillas, sin limpieza, y aún tienes que editar antes de enviar al LLM. Las que limpian están basadas en la nube, requieren cuentas, suscripciones y subir tu audio a algún sitio.
Y ninguna manejaba capturas de pantalla. Lo que nos lleva al flujo de trabajo que realmente importa.
Voz + Visión, Manos Libres
La primera función que construimos no fue el dictado. Fue el flujo de capturas de pantalla.
He aquí el problema: cuando usas Claude Code o Cursor para depurar algo, frecuentemente necesitas mostrarle lo que hay en pantalla. Un mensaje de error. Un problema de renderizado en la UI. Una salida de terminal que no se copia limpiamente.
Normalmente eso significa: coger el ratón → seleccionar región → guardar archivo → arrastrar al chat → escribir contexto. Son cinco pasos. Rompes el flujo cada vez.
Con Vext, mantienes pulsada la tecla rápida, arrastras una región y sigues hablando. La captura se pega junto a tu prompt transcrito — en un solo gesto. Octomind, Claude Code, Cursor — todos reciben el contexto visual y tus instrucciones simultáneamente. Tus manos nunca abandonan el teclado.
Llamamos a esto modo voz + visión. Es lo que hace diferente a Vext de cualquier otra herramienta de dictado del mercado. Porque el objetivo no es solo reemplazar el escribir. Es eliminar cada microinterrupción entre el pensamiento y la acción.
Dos formas de dictar. Modo estándar: mantén pulsada la tecla, habla, suelta. Modo manos libres: pulsa una vez para empezar, habla libremente, pulsa otra vez para parar. Perfecto para pasajes más largos o cuando tus manos están ocupadas — como revisar código mientras describes la solución en voz alta.
Audio ducking. Empieza a grabar y Vext atenúa automáticamente el audio del sistema para que tu voz destaque. Suelta la tecla y el volumen vuelve a la normalidad. Sin ajustes manuales del deslizador en medio de una reunión.
La Arquitectura de la Confianza
Cada herramienta de voz que evaluamos envía tu audio a la nube. Whisper se ejecuta en los servidores de OpenAI. Wispr Flow sube al backend. Otter graba y procesa todo de forma remota.
Vext no hace nada de eso.
Whisper se ejecuta directamente en tu GPU de Apple Silicon. Todo el procesamiento — voz a texto, limpieza con IA, traducción, resumen — ocurre en tu Mac. No se sube ningún audio. Ninguna transcripción sale de tu máquina. No hay cuenta que crear porque no hay nada que almacenar en nuestro lado.
Esto no es una política que escribimos. Es la arquitectura.
Distribuimos varios modelos con la app. Parakeet (de NeMo de NVIDIA) se ejecuta 150× más rápido que en tiempo real en chips de la serie M — ese es el predeterminado para voz a texto. Gemma 3 4B maneja la limpieza y el resumen localmente. ¿No te gustan esos? Cambia al dictado integrado de Apple para descarga cero, o elige entre Qwen 3 (multilingüe robusto), LLaMA 3.2 3B (propósito general) o Phi-3.5 Mini (compacto, razonamiento fuerte). Incluso puedes traer tu propia clave de API y usar modelos en la nube compatibles con OpenAI. La elección es tuya — pero lo predeterminado es privado.
Lo construimos así porque lo usamos así. Nuestras conversaciones con herramientas de IA contienen decisiones arquitectónicas, lógica de negocio, información de clientes. No vamos a enviar eso a otro servidor solo para obtener entrada de texto.
Tres Modos, Una Aplicación
Vext 1.1 funciona en tres modos distintos, todos compartiendo el mismo motor local:
Dictado — Mantén pulsada una tecla, habla, suelta. El texto aparece en tu cursor en cualquier app. Navegador, terminal, VS Code, Slack, Claude, Cursor. Cada campo de texto es un objetivo.
Reuniones — Graba cualquier llamada — Zoom, Google Meet, FaceTime o presencial — y obtén una transcripción completa con identificación de hablantes, marcas de tiempo y desgloses por hablante. Activa Resumir para extraer puntos clave y elementos de acción. La transcripción cruda siempre se conserva junto al resumen de IA — nunca pierdes el original. Y ningún bot se une a tu llamada. Vext captura el audio del sistema + el micrófono localmente; no hay terceros conectándose a tu reunión.
Notas de Voz — Comentarios rápidos transcritos, limpiados y almacenados localmente. Sin cambio de aplicación. Funciona desde cualquier parte de tu Mac.
Los tres modos usan la misma cadena de limpieza: muletillas eliminadas, estructura aclarada, intención preservada. Lo que dices y lo que se pega son cosas diferentes — la versión pegada es lo que querías decir.
Etiqueta a los Hablantes una Vez. Reconocidos para Siempre.
Nombra una voz una vez y Vext no volverá a preguntar.
Vext detecta automáticamente cada voz distinta en una grabación. Nómbralas una vez — "Sarah", "Alex", "Jack" — y desde tu próxima llamada en adelante, la misma persona es identificada, etiquetada y codificada por color sin mover un dedo.
Funciona entre reuniones. Nombra a un contratista en el standup del lunes. ¿La llamada de planificación del miércoles? Vext reconoce su voz. Sin reetiquetar. Sin ruido de "Hablante 1". La transcripción muestra etiquetas codificadas por color para que puedas escanear quién dijo qué de un vistazo.
Usamos esto a diario para nuestros propios standups. Ava (nuestra colaboradora de IA) se etiqueta de forma consistente. Podemos desplazarnos por semanas de grabaciones y encontrar exactamente quién tomó qué decisión. Suena menor. No lo es.
La Economía de un Precio Único
| Vext | Wispr Flow | Granola | Otter.ai | |
|---|---|---|---|---|
| Precio | 24,50 $ una vez | 12–15 $/mes | 14–35 $/mes | 8–17 $/mes |
| Coste tras 2 años | 24,50 $ | 288–360 $ | 336–840 $ | 200–408 $ |
| Procesamiento local | ✅ | ❌ | ❌ | ❌ |
| Funciona sin conexión | ✅ | ❌ | ❌ | ❌ |
| Reconocimiento de hablantes (entre reuniones) | ✅ | N/A | ✅ | ❌ |
| Captura de pantalla | ✅ | ❌ | ❌ | ❌ |
| Auto-pegar capturas a la IA | ✅ | ❌ | ❌ | ❌ |
| Ningún bot se une a la llamada | ✅ | N/A | ❌ | ❌ |
| Modo YOLO (auto-envío) | ✅ | ❌ | ❌ | ❌ |
24,50 $. Una sola vez. Sin niveles ocultos. Sin plan "pro" que elimina límites que no sabías que existían.
Obtienes 100 dictados gratis, 50 notas y 10 grabaciones de reuniones para probar todo sin riesgo. Después es un precio único, uso ilimitado, para siempre. Actualizaciones gratuitas dentro de la versión actual. Nuevas versiones principales al 50 % de descuento para propietarios existentes.
No hacemos suscripciones porque no necesitamos ingresos recurrentes para mantener una app de Mac. Vext procesa todo localmente. No hay costes de servidor que amortizar. No hay facturas de nube que repercutir. La compras una vez y funciona.
Lo Que Hacen los Primeros Usuarios
Hemos estado ejecutando Vext internamente desde abril. Así es como se usa:
Depurar con Claude Code. Abre la terminal, mantén pulsada la tecla, describe el bug MIENTRAS miras el error. Sin cambiar de ventana. Sin copiar y pegar. El error está en tus palabras, la solución está en tu terminal, y nunca rompiste el contacto visual con el código.
Descripciones de PR. La peor parte del desarrollo. Ahora: mantén pulsada la tecla, recorre los cambios en voz alta, suelta. Aparece una descripción de PR más limpia y estructurada en el campo de texto. El modo YOLO lo envía automáticamente.
Resúmenes de reuniones que no apestan. Graba una discusión arquitectónica de 45 minutos. Obtén una transcripción con hablantes etiquetados, puntos clave y elementos de acción — sin un bot uniéndose a tu llamada. Vext captura el audio del sistema y el micrófono simultáneamente; ningún tercero se conecta jamás a tu reunión.
Depurar agentes con Octomind. Un agente de Octomind se atasca en un test inestable. Mantén pulsada la tecla, describe lo que ves, arrastra la traza del error. El prompt de reintento incluye contexto visual completo. Sin cambiar de pestaña. Sin copiar y pegar. El agente termina la tarea mientras pasas a la siguiente.
Traducción en vivo en tiempo real. Habla en inglés, obtén ruso en el cursor. O español, japonés, francés — más de 99 idiomas objetivo. La transcripción y la traducción ocurren en una sola pasada, localmente. El mismo flujo con tecla rápida.
Lo Que Viene
Vext 1.1 sale hoy con todo lo descrito arriba. Tenemos una hoja de ruta que incluye:
- App complementaria para iOS para dictar sobre la marcha con sincronización local
- Comandos de voz personalizados para acciones específicas de app
- Integración más profunda con el ecosistema de agentes Muvon (Octomind + Octobrain)
Pero el núcleo — local-first, privacidad por arquitectura, sin suscripción — eso no cambia.
Preguntas Frecuentes
¿Qué es Vext?
Vext es una app de voz a texto para Mac que se ejecuta completamente en tu máquina. Mantén pulsada una tecla, habla, suelta — tus palabras aparecen en el cursor en cualquier app, limpias y listas para enviar. Sin nube, sin cuenta, sin suscripción. 24,50 $ una vez.
¿Vext envía mi audio a la nube?
No. El reconocimiento de voz (Whisper, Parakeet), la limpieza con IA (Gemma 3, Qwen 3, LLaMA 3.2, Phi-3.5), la traducción y el resumen se ejecutan todos localmente en Apple Silicon. Ningún audio sale de tu Mac a menos que aportes explícitamente tu propia clave de API compatible con OpenAI.
¿Qué Macs soporta?
Apple Silicon (M1, M2, M3, M4). Parakeet se ejecuta aproximadamente 150× más rápido que en tiempo real en chips de la serie M.
¿Cómo se compara Vext con Wispr Flow, Granola u Otter.ai?
Vext es un pago único de 24,50 $; Wispr Flow va por 12–15 $/mes, Granola 14–35 $/mes, Otter.ai 8–17 $/mes. Coste a dos años: 24,50 $ frente a 200–840 $. Vext es el único que procesa todo localmente, funciona sin conexión y pega capturas de pantalla junto al dictado.
¿Un bot se une a mis reuniones?
No. Vext captura el audio del sistema y el micrófono localmente. Ningún servicio de terceros se conecta a Zoom, Google Meet o FaceTime. La grabación se queda en tu Mac.
¿Puedo usar mi propio proveedor de IA?
Sí. Vext soporta cualquier API compatible con OpenAI (OpenAI, OpenRouter, Ollama local, endpoints personalizados) para limpieza y resumen. La opción predeterminada se distribuye con modelos locales, así que no necesitas una clave para empezar.
¿Funciona en cualquier app?
Sí. Cualquier campo de texto en macOS — navegador, terminal, VS Code, Slack, Claude Desktop, Cursor, Codex CLI. Vext pega en el cursor.
¿Qué idiomas soporta?
Más de 99 idiomas para transcripción y traducción. Habla en un idioma, obtén texto en otro, en una sola pasada — localmente.
Pruébalo
Vext está disponible ahora en getvext.app. Gratis para probar — 100 dictados, 50 notas, 10 reuniones. Sin cuenta requerida. Sin datos recopilados.
# O si prefieres la terminal
brew install muvon/tap/vext
Promo de lanzamiento: 50 % de descuento con el código VEXT50 hasta el 1 de junio. 24,50 $ una sola vez, para siempre.
Construimos esto porque lo necesitábamos. Cada herramienta que usamos — Octomind, Claude, Codex, Cursor — se volvió más rápida en el momento en que dejamos de escribir y empezamos a hablar. Si pasas tu día en herramientas de IA, tú también lo harás.
Tu voz nunca sale de tu Mac. Tus pensamientos llegan a la velocidad de un LLM. Y el teclado se vuelve opcional.



