Vext 1.1: голос в текст для Mac — создан для AI-рабочих процессов

Вы в потоке. Octomind выполняет задачу агента. У Claude есть архитектурный контекст. Вы видите решение.

Но вам нужно его напечатать. Каждое слово. Каждую мысль. Пока ваши руки на клавиатуре, вы не думаете о проблеме — вы думаете о наборе текста.

Это узкое место, о котором никто не говорит. AI-инструменты для кода убрали синтаксический барьер. Вы можете описать то, что хотите, на естественном языке и получить рабочий код. Но входной канал по-прежнему — клавиатура. Ваши мысли приходят со скоростью LLM. Ваши пальцы — со скоростью печати.

В этот разрыв и приходит Vext.

Vext 1.1 — это голос-в-текст для Mac, который работает везде, и создан специально под то, как мы работаем с AI. Зажмите клавишу, говорите естественно, отпустите. Ваши слова появляются у курсора, очищенные и готовые к использованию. Без облака, без подписки, без аккаунта. 24,50 $ один раз, навсегда.

Проблемой Были Мы Сами

Сейчас отступлю.

Большую часть дня мы проводим в собственных инструментах. Octomind для запусков агентов. Claude для архитектурных решений. Claude Code для рефакторинга. Cursor для имплементации. Codex для быстрых скриптов. Обычный стек для студии мейкеров, которая выпускает как команда из тридцати человек.

И у каждого из них одно общее узкое место: набор текста.

Сложный рефакторинг можно описать за 10 секунд. На набор уходит 90 секунд. Это 80 секунд трения на одну мысль. За день интенсивного взаимодействия с AI — 50, 60, иногда 100 промптов — это трение складывается в часы.

Мы пробовали существующие голосовые инструменты. Большинство — это просто транскрипция: они выгружают сырые слова со словами-паразитами, без очистки, и вам всё равно нужно редактировать перед отправкой в LLM. Те, что очищают, работают в облаке, требуют аккаунтов, подписок и загрузки вашего аудио куда-то.

И ни один не работал со скриншотами. Что приводит нас к рабочему процессу, который реально важен.

Голос + Зрение, Без Помощи Рук

Первой функцией, которую мы построили, был не диктант. Это был процесс работы со скриншотами.

Вот проблема: когда вы используете Claude Code или Cursor для отладки, часто нужно показать, что у вас на экране. Сообщение об ошибке. Проблема рендеринга UI. Вывод терминала, который не копируется чисто.

Обычно это значит: взять мышь → выделить область → сохранить файл → перетащить в чат → набрать контекст. Это пять шагов. Каждый раз вы выпадаете из потока.

С Vext вы зажимаете горячую клавишу, тащите область и продолжаете говорить. Скриншот вставляется рядом с вашим транскрибированным промптом — за один заход. Octomind, Claude Code, Cursor — все получают визуальный контекст и ваши инструкции одновременно. Ваши руки не покидают клавиатуру.

Мы называем это режимом голос + зрение. Это то, что отличает Vext от любого другого инструмента диктовки на рынке. Потому что цель — не просто заменить набор текста. Цель — убрать каждое микро-прерывание между мыслью и действием.

Два способа диктовать. Стандартный режим: зажать клавишу, говорить, отпустить. Хендс-фри режим: нажать один раз, чтобы начать, говорить свободно, нажать ещё раз, чтобы остановить. Идеально для длинных фрагментов или когда руки заняты — например, при просмотре кода с описанием правки вслух.

Audio ducking. Начните запись — и Vext автоматически приглушает системное звук, чтобы голос пробивался. Отпустите клавишу — громкость вернётся к норме. Без ручной возни с ползунком посреди встречи.

Архитектура Доверия

Каждый голосовой инструмент, который мы оценивали, отправляет ваше аудио в облако. Whisper работает на серверах OpenAI. Wispr Flow загружает на свой бэкенд. Otter записывает и обрабатывает всё удалённо.

Vext не делает ничего из этого.

Whisper работает напрямую на вашем GPU Apple Silicon. Вся обработка — речь-в-текст, AI-очистка, перевод, суммаризация — происходит на вашем Mac. Никакое аудио не загружается. Никакие транскрипты не покидают вашу машину. Не нужно создавать аккаунт, потому что у нас нечего хранить.

Это не политика, которую мы написали. Это архитектура.

Мы поставляем несколько моделей с приложением. Parakeet (NeMo от NVIDIA) работает в 150× быстрее реального времени на чипах M-серии — это значение по умолчанию для речи-в-текст. Gemma 3 4B обрабатывает очистку и суммаризацию локально. Не нравится? Переключитесь на встроенную диктовку Apple — без скачивания, или выберите Qwen 3 (сильный мультиязычный), LLaMA 3.2 3B (общего назначения) или Phi-3.5 Mini (компактный, сильное рассуждение). Можно даже принести свой API-ключ и использовать облачные модели, совместимые с OpenAI. Выбор за вами — но по умолчанию приватно.

Мы построили это так, потому что сами так используем. Наши разговоры с AI-инструментами содержат архитектурные решения, бизнес-логику, информацию о клиентах. Мы не отправляем это на чей-то сервер ради текстового ввода.

Три Режима, Одно Приложение

Vext 1.1 работает в трёх различных режимах, все на одном локальном движке:

Диктовка — Зажмите горячую клавишу, говорите, отпустите. Текст появляется у курсора в любом приложении. Браузер, терминал, VS Code, Slack, Claude, Cursor. Любое текстовое поле — мишень.

Встречи — Запишите любой звонок — Zoom, Google Meet, FaceTime или личный — и получите полную транскрипцию с идентификацией говорящих, временными метками и разбивкой по говорящим. Включите Summarize, чтобы извлечь ключевые моменты и действия. Сырая транскрипция всегда сохраняется рядом с AI-резюме — оригинал никогда не теряется. И ни один бот не подключается к вашему звонку. Vext захватывает системный звук + микрофон локально; нет третьих лиц, подключающихся к вашей встрече.

Голосовые заметки — Быстрые комментарии транскрибируются, очищаются и хранятся локально. Без переключения приложений. Работает из любого места на вашем Mac.

Все три режима используют один и тот же конвейер очистки: слова-паразиты убраны, структура прояснена, смысл сохранён. То, что вы говорите, и то, что вставляется, — разные вещи; вставленная версия — это то, что вы хотели сказать.

Назовите Говорящих Один Раз. Распознаны Навсегда.

Назовите голос один раз — и Vext больше не спросит.

Vext автоматически определяет каждый отдельный голос в записи. Назовите их один раз — «Sarah», «Alex», «Jack» — и со следующего звонка тот же человек будет идентифицирован, помечен и выделен цветом без единого движения пальцем.

Это работает между встречами. Назовите подрядчика на понедельничном стендапе. Среда, звонок по планированию? Vext знает его голос. Без повторных меток. Без шума типа «Speaker 1». В транскрипции цветные плашки, чтобы окинуть взглядом, кто что сказал.

Мы используем это ежедневно для собственных стендапов. Ava (наш AI-коллаборатор) помечается последовательно. Мы можем прокручивать записи за недели и находить, кто именно принял какое решение. Звучит мелочью. Это не так.

Экономика Одной Цены

	Vext	Wispr Flow	Granola	Otter.ai
Цена	24,50 $ один раз	12–15 $/мес	14–35 $/мес	8–17 $/мес
Стоимость за 2 года	24,50 $	288–360 $	336–840 $	200–408 $
Локальная обработка	✅	❌	❌	❌
Работает офлайн	✅	❌	❌	❌
Распознавание говорящих (между встречами)	✅	N/A	✅	❌
Захват скриншотов	✅	❌	❌	❌
Авто-вставка скриншотов в AI	✅	❌	❌	❌
Бот не подключается к звонку	✅	N/A	❌	❌
YOLO-режим (авто-отправка)	✅	❌	❌	❌

24,50 $. Один раз. Без скрытых уровней. Без «pro»-плана, который снимает лимиты, о которых вы не знали.

Вы получаете 100 бесплатных диктовок, 50 заметок и 10 записей встреч, чтобы попробовать всё без риска. Дальше — одна цена, безлимит, навсегда. Бесплатные обновления внутри текущей версии. Крупные новые версии — со скидкой 50 % для существующих владельцев.

Мы не делаем подписки, потому что нам не нужен повторяющийся доход, чтобы поддерживать Mac-приложение. Vext обрабатывает всё локально. Нет серверных расходов, которые нужно амортизировать. Нет облачных счетов, которые нужно переложить. Вы покупаете один раз — и оно работает.

Что Делают Ранние Пользователи

Мы используем Vext внутри компании с апреля. Вот как это применяется:

Отладка с Claude Code. Откройте терминал, зажмите горячую клавишу, опишите баг ПОКА смотрите на ошибку. Без переключения окон. Без копи-пейста. Ошибка — у вас в словах, фикс — в терминале, и вы ни разу не разорвали зрительный контакт с кодом.

Описания PR. Худшая часть разработки. Теперь: зажмите клавишу, проговорите изменения вслух, отпустите. В текстовом поле появляется более чистое, структурированное описание PR. YOLO-режим отправляет его автоматически.

Резюме встреч, которые не отстой. Запишите 45-минутную архитектурную дискуссию. Получите транскрипт с метками говорящих, ключевые моменты и пункты действий — без бота, подключающегося к звонку. Vext одновременно захватывает системное аудио и микрофон; никакая третья сторона не подключается к встрече.

Отладка агентов с Octomind. Агент Octomind зависает на флейки-тесте. Зажмите горячую клавишу, опишите, что видите, перетащите трассировку ошибки. В промпт для ретрая попадает полный визуальный контекст. Без переключения вкладок. Без копи-пейста. Агент завершает задачу, пока вы переходите к следующей.

Живой перевод в реальном времени. Говорите по-английски — получаете русский у курсора. Или испанский, японский, французский — 99+ целевых языков. Транскрипция и перевод происходят за один проход, локально. Тот же рабочий процесс с горячей клавишей.

Что Впереди

Vext 1.1 выходит сегодня со всем, что описано выше. У нас есть роадмап, который включает:

iOS-компаньон для диктовки в дороге с локальной синхронизацией
Кастомные голосовые команды для специфичных приложениям действий
Более глубокая интеграция с экосистемой агентов Muvon (Octomind + Octobrain)

Но ядро — local-first, приватность через архитектуру, без подписки — не меняется.

FAQ

Что такое Vext?

Vext — это приложение голос-в-текст для Mac, которое работает полностью на вашей машине. Зажмите горячую клавишу, говорите, отпустите — ваши слова появляются у курсора в любом приложении, очищенные и готовые к отправке. Без облака, без аккаунта, без подписки. 24,50 $ один раз.

Отправляет ли Vext моё аудио в облако?

Нет. Распознавание речи (Whisper, Parakeet), AI-очистка (Gemma 3, Qwen 3, LLaMA 3.2, Phi-3.5), перевод и суммаризация — всё работает локально на Apple Silicon. Никакое аудио не покидает ваш Mac, если только вы явно не используете свой ключ к OpenAI-совместимому API.

Какие Mac поддерживаются?

Apple Silicon (M1, M2, M3, M4). Parakeet работает примерно в 150× быстрее реального времени на чипах M-серии.

Как Vext соотносится с Wispr Flow, Granola или Otter.ai?

Vext — единоразовый платёж 24,50 $; Wispr Flow стоит 12–15 $/мес, Granola 14–35 $/мес, Otter.ai 8–17 $/мес. Стоимость за два года: 24,50 $ против 200–840 $. Vext — единственный, кто обрабатывает всё локально, работает офлайн и вставляет скриншоты рядом с диктовкой.

Подключается ли бот к моим встречам?

Нет. Vext захватывает системное аудио и микрофон локально. Никакой сторонний сервис не подключается к Zoom, Google Meet или FaceTime. Запись остаётся на вашем Mac.

Могу ли я использовать своего AI-провайдера?

Да. Vext поддерживает любое OpenAI-совместимое API (OpenAI, OpenRouter, локальная Ollama, кастомные эндпоинты) для очистки и суммаризации. По умолчанию поставляются локальные модели, так что для старта ключ не нужен.

Работает ли в любом приложении?

Да. Любое текстовое поле в macOS — браузер, терминал, VS Code, Slack, Claude Desktop, Cursor, Codex CLI. Vext вставляет у курсора.

Какие языки поддерживаются?

99+ языков для транскрипции и перевода. Говорите на одном языке — получайте текст на другом, за один проход — локально.

Попробовать

Vext доступен сейчас на getvext.app. Бесплатно попробовать — 100 диктовок, 50 заметок, 10 встреч. Аккаунт не нужен. Данные не собираются.

# Или, если предпочитаете терминал
brew install muvon/tap/vext

Промо запуска: 50 % скидка по коду VEXT50 до 1 июня. 24,50 $ один раз, навсегда.

Мы построили это, потому что сами в этом нуждались. Каждый инструмент, который мы используем — Octomind, Claude, Codex, Cursor — стал быстрее в тот момент, когда мы перестали печатать и начали говорить. Если вы проводите день в AI-инструментах, у вас тоже так получится.

Ваш голос никогда не покидает Mac. Ваши мысли приходят со скоростью LLM. А клавиатура становится опциональной.