Vext 1.1: Mac के लिए वॉइस-टू-टेक्स्ट — AI वर्कफ़्लो के लिए बनाया गया

हमने Vext इसलिए बनाया क्योंकि AI टूल्स में टाइप करना अब भी बहुत धीमा है। डिक्टेट करें, स्क्रीनशॉट कैप्चर करें, Claude या Codex में पेस्ट करें — सब कुछ लोकल, सब कुछ प्राइवेट, कोई सब्सक्रिप्शन नहीं। स्पीकर रिकग्निशन, वॉइस नोट्स और बहुत कुछ से मिलें।

2 मई 2026 • 12 मिनट पढ़ें •

Don Karter

• एआई अनुवाद

Vext 1.1 - स्क्रीनशॉट कैप्चर, स्पीकर रिकग्निशन, AI क्लीनअप और मीटिंग ट्रांसक्रिप्शन के साथ Mac के लिए वॉइस टू टेक्स्ट

आप ज़ोन में हैं। Octomind एक एजेंट टास्क चला रहा है। Claude के पास आर्किटेक्चरल कॉन्टेक्स्ट है। आप फ़िक्स देख सकते हैं।

लेकिन आपको उसे टाइप करना होगा। हर शब्द। हर विचार। जब आपके हाथ की-बोर्ड पर हैं, तब आप समस्या के बारे में नहीं सोच रहे — आप टाइपिंग के बारे में सोच रहे हैं।

यह वह बॉटलनेक है जिसके बारे में कोई बात नहीं करता। AI कोडिंग टूल्स ने सिंटैक्स की बाधा हटा दी। आप जो चाहते हैं उसे प्राकृतिक भाषा में बता सकते हैं और काम करने वाला कोड वापस पा सकते हैं। लेकिन इनपुट चैनल अभी भी की-बोर्ड है। आपके विचार LLM की गति से आते हैं। आपकी उंगलियाँ टाइपिंग की गति से आती हैं।

यही वह गैप है जहाँ Vext आता है।

Vext 1.1 Mac के लिए वॉइस-टू-टेक्स्ट है जो हर जगह काम करता है — और यह विशेष रूप से इस बात के लिए बनाया गया है कि हम AI के साथ कैसे काम करते हैं। एक key दबाए रखें, स्वाभाविक रूप से बोलें, छोड़ दें। आपके शब्द कर्सर पर दिखाई देते हैं, साफ़-सुथरे और तैयार। कोई क्लाउड नहीं, कोई सब्सक्रिप्शन नहीं, कोई अकाउंट नहीं। $24.50 एक बार, हमेशा के लिए।

समस्या हम ख़ुद थे

मुझे पीछे लौटने दीजिए।

हम अपना अधिकांश दिन अपने ख़ुद के टूल्स में बिताते हैं। एजेंट रन के लिए Octomind। आर्किटेक्चर निर्णयों के लिए Claude। रीफ़ैक्टरिंग के लिए Claude Code। इंप्लीमेंटेशन के लिए Cursor। त्वरित स्क्रिप्ट्स के लिए Codex। एक बिल्डर स्टूडियो का सामान्य स्टैक जो तीस लोगों की टीम की तरह शिप करता है।

और इन सभी में एक ही बॉटलनेक है: टाइपिंग।

आप 10 सेकंड में एक जटिल रीफ़ैक्टर वर्णन कर सकते हैं। उसे टाइप करने में 90 सेकंड लगते हैं। यह प्रति विचार 80 सेकंड का घर्षण है। भारी AI इंटरैक्शन के पूरे दिन — 50, 60, कभी-कभी 100 prompts — यह घर्षण घंटों तक जुड़ जाता है।

हमने मौजूदा वॉइस टूल्स आज़माए। ज़्यादातर केवल ट्रांसक्रिप्शन हैं — वे filler के साथ कच्चे शब्द उगल देते हैं, कोई क्लीनअप नहीं, और LLM को भेजने से पहले आपको अभी भी एडिट करना होता है। जो क्लीनअप करते हैं वे क्लाउड-आधारित हैं, उन्हें अकाउंट्स, सब्सक्रिप्शन्स और आपका ऑडियो कहीं अपलोड करने की आवश्यकता होती है।

और इनमें से किसी ने स्क्रीनशॉट्स को हैंडल नहीं किया। जो हमें उस वर्कफ़्लो पर लाता है जो वास्तव में मायने रखता है।

वॉइस + विज़न, हैंड्स-फ़्री

हमने पहली जो फ़ीचर बनाई वह डिक्टेशन नहीं थी। वह स्क्रीनशॉट वर्कफ़्लो थी।

समस्या यह है: जब आप Claude Code या Cursor का उपयोग किसी चीज़ को डीबग करने के लिए कर रहे हों, आपको अक्सर यह दिखाना पड़ता है कि स्क्रीन पर क्या है। एक एरर मेसेज। एक UI रेंडरिंग समस्या। एक टर्मिनल आउटपुट जो साफ़-साफ़ कॉपी नहीं होता।

सामान्यतः इसका मतलब है: माउस पकड़ो → रीज़न सेलेक्ट करो → फ़ाइल सेव करो → चैट में ड्रैग करो → कॉन्टेक्स्ट टाइप करो। यह पाँच चरण हैं। आप हर बार फ़्लो तोड़ते हैं।

Vext के साथ, आप हॉटकी दबाए रखें, एक रीज़न ड्रैग करें, और बोलते रहें। स्क्रीनशॉट आपके ट्रांसक्राइब किए गए prompt के साथ-साथ पेस्ट हो जाता है — एक ही शॉट में। Octomind, Claude Code, Cursor — सभी एक साथ विज़ुअल कॉन्टेक्स्ट और आपके निर्देश पाते हैं। आपके हाथ कभी की-बोर्ड नहीं छोड़ते।

हम इसे वॉइस + विज़न मोड कहते हैं। यह वह चीज़ है जो Vext को बाज़ार के हर दूसरे डिक्टेशन टूल से अलग बनाती है। क्योंकि लक्ष्य केवल टाइपिंग को बदलना नहीं है। यह विचार और कार्य के बीच हर माइक्रो-व्यवधान को हटाना है।

डिक्टेट करने के दो तरीक़े। स्टैंडर्ड मोड: हॉटकी दबाए रखें, बोलें, छोड़ें। हैंड्स-फ़्री मोड: शुरू करने के लिए एक बार दबाएँ, स्वतंत्र रूप से बोलें, रोकने के लिए फिर दबाएँ। लंबे passages के लिए या जब आपके हाथ व्यस्त हों — जैसे कि कोड की समीक्षा करते हुए ज़ोर से फ़िक्स बताना — के लिए परफ़ेक्ट।

ऑडियो डकिंग। रिकॉर्डिंग शुरू करें और Vext स्वचालित रूप से आपके सिस्टम ऑडियो को फेड कर देता है ताकि आपकी आवाज़ साफ़ कटे। हॉटकी छोड़ें और वॉल्यूम वापस सामान्य पर आ जाता है। मीटिंग के बीच में कोई मैनुअल slider एडजस्टमेंट नहीं।

विश्वास का आर्किटेक्चर

हर वॉइस टूल जिसका हमने मूल्यांकन किया वह आपका ऑडियो क्लाउड में भेजता है। Whisper OpenAI के सर्वर पर चलता है। Wispr Flow उनके backend पर अपलोड होता है। Otter सब कुछ रिमोटली रिकॉर्ड और प्रोसेस करता है।

Vext इनमें से कुछ नहीं करता।

Whisper सीधे आपके Apple Silicon GPU पर चलता है। सारी प्रोसेसिंग — स्पीच-टू-टेक्स्ट, AI क्लीनअप, अनुवाद, सारांश — आपके Mac पर होती है। कोई ऑडियो कभी अपलोड नहीं होता। कोई transcripts आपकी मशीन से नहीं निकलते। बनाने के लिए कोई अकाउंट नहीं है क्योंकि हमारी तरफ़ संग्रह करने को कुछ नहीं है।

यह कोई पॉलिसी नहीं है जो हमने लिखी। यह आर्किटेक्चर है।

हम ऐप के साथ कई मॉडल्स शिप करते हैं। Parakeet (NVIDIA का NeMo) M-सीरीज़ चिप्स पर रियल-टाइम से 150× तेज़ चलता है — यह स्पीच-टू-टेक्स्ट के लिए डिफ़ॉल्ट है। Gemma 3 4B क्लीनअप और सारांश को स्थानीय रूप से हैंडल करता है। ये पसंद नहीं? शून्य डाउनलोड के लिए Apple के built-in डिक्टेशन पर स्विच करें, या Qwen 3 (मज़बूत मल्टीलिंगुअल), LLaMA 3.2 3B (सामान्य उद्देश्य), या Phi-3.5 Mini (कॉम्पैक्ट, मज़बूत रीज़निंग) में से चुनें। आप अपनी ख़ुद की API key लाकर OpenAI-कम्पैटिबल क्लाउड मॉडल्स का भी उपयोग कर सकते हैं। चुनाव आपका है — लेकिन डिफ़ॉल्ट प्राइवेट है।

हमने इसे इसी तरह बनाया क्योंकि हम इसे इसी तरह उपयोग करते हैं। AI टूल्स के साथ हमारी बातचीत में आर्किटेक्चर निर्णय, बिज़नेस लॉजिक, क्लाइंट जानकारी होती है। हम टेक्स्ट इनपुट पाने के लिए वह किसी और सर्वर पर नहीं भेज रहे।

तीन मोड, एक ऐप

Vext 1.1 तीन विशिष्ट मोड में काम करता है, सभी एक ही लोकल इंजन साझा करते हैं:

डिक्टेशन — एक हॉटकी दबाए रखें, बोलें, छोड़ें। टेक्स्ट किसी भी ऐप में आपके कर्सर पर दिखाई देता है। ब्राउज़र, टर्मिनल, VS Code, Slack, Claude, Cursor। हर text field एक टारगेट है।

मीटिंग्स — किसी भी कॉल — Zoom, Google Meet, FaceTime, या व्यक्तिगत — को रिकॉर्ड करें और स्पीकर पहचान, टाइमस्टैम्प, और प्रति-स्पीकर ब्रेकडाउन के साथ पूरा transcript पाएँ। मुख्य बिंदु और action items निकालने के लिए Summarize ऑन करें। कच्चा transcript हमेशा AI सारांश के साथ संरक्षित रखा जाता है — आप कभी मूल नहीं खोते। और कोई bot आपकी कॉल में नहीं जुड़ता। Vext सिस्टम ऑडियो + माइक्रोफ़ोन को स्थानीय रूप से कैप्चर करता है; आपकी मीटिंग से कोई third party कनेक्ट नहीं होता।

वॉइस नोट्स — त्वरित टिप्पणियाँ ट्रांसक्राइब, क्लीन और स्थानीय रूप से संग्रहीत। कोई ऐप स्विचिंग नहीं। आपके Mac पर कहीं से भी काम करता है।

तीनों मोड एक ही क्लीनअप pipeline का उपयोग करते हैं: filler words हटा दिए जाते हैं, संरचना स्पष्ट की जाती है, इरादा संरक्षित। आप जो कहते हैं और जो पेस्ट होता है, वह अलग-अलग चीज़ें हैं — पेस्ट किया गया संस्करण वही है जो आप कहना चाहते थे।

स्पीकर्स को एक बार लेबल करें। हमेशा के लिए पहचाने जाएँगे।

एक आवाज़ को एक बार नाम दें और Vext फिर कभी नहीं पूछेगा।

Vext एक रिकॉर्डिंग में हर अलग आवाज़ का स्वचालित रूप से पता लगाता है। उन्हें एक बार नाम दें — "Sarah", "Alex", "Jack" — और अगली कॉल से, वही व्यक्ति बिना उँगली उठाए पहचाना, लेबल और रंग-कोडित किया जाएगा।

यह मीटिंग्स के बीच काम करता है। सोमवार के standup में एक contractor को नाम दें। बुधवार की प्लानिंग कॉल? Vext उनकी आवाज़ जानता है। कोई री-लेबलिंग नहीं। कोई "Speaker 1" शोर नहीं। transcript में रंग-कोडित chips दिखाई देते हैं ताकि आप एक नज़र में स्कैन कर सकें कि किसने क्या कहा।

हम अपने ख़ुद के standups के लिए इसे दैनिक उपयोग करते हैं। Ava (हमारी AI सहयोगी) को लगातार लेबल किया जाता है। हम हफ़्तों की रिकॉर्डिंग्स को scroll कर सकते हैं और ठीक-ठीक पता लगा सकते हैं कि कौन-सा निर्णय किसने लिया। मामूली लगता है। नहीं है।

एक क़ीमत का अर्थशास्त्र

	Vext	Wispr Flow	Granola	Otter.ai
क़ीमत	$24.50 एक बार	$12–15/माह	$14–35/माह	$8–17/माह
2 साल बाद लागत	$24.50	$288–360	$336–840	$200–408
लोकल प्रोसेसिंग	✅	❌	❌	❌
ऑफ़लाइन काम करता है	✅	❌	❌	❌
स्पीकर रिकग्निशन (क्रॉस-मीटिंग)	✅	N/A	✅	❌
स्क्रीनशॉट कैप्चर	✅	❌	❌	❌
AI में ऑटो-पेस्ट स्क्रीनशॉट्स	✅	❌	❌	❌
कोई bot आपकी कॉल में नहीं जुड़ता	✅	N/A	❌	❌
YOLO मोड (ऑटो-सबमिट)	✅	❌	❌	❌

$24.50। एक बार। कोई छिपा हुआ टियर नहीं। कोई "pro" प्लान नहीं जो उन सीमाओं को हटाता है जिनके बारे में आप नहीं जानते थे।

आपको सब कुछ बिना जोखिम के आज़माने के लिए 100 मुफ़्त डिक्टेशन्स, 50 नोट्स, और 10 मीटिंग रिकॉर्डिंग्स मिलते हैं। फिर यह एक क़ीमत, असीमित उपयोग, हमेशा के लिए है। वर्तमान संस्करण के भीतर मुफ़्त अपडेट्स। मौजूदा मालिकों के लिए प्रमुख नए संस्करण 50% छूट पर।

हम सब्सक्रिप्शन्स नहीं करते क्योंकि एक Mac ऐप को बनाए रखने के लिए हमें आवर्ती राजस्व की आवश्यकता नहीं है। Vext सब कुछ स्थानीय रूप से प्रोसेस करता है। amortize करने के लिए कोई server costs नहीं हैं। पास करने के लिए कोई क्लाउड बिल नहीं हैं। आप इसे एक बार ख़रीदते हैं, और यह काम करता है।

शुरुआती उपयोगकर्ता क्या कर रहे हैं

हम अप्रैल से आंतरिक रूप से Vext चला रहे हैं। यहाँ बताया गया है कि इसका उपयोग कैसे होता है:

Claude Code के साथ डीबगिंग। टर्मिनल खोलें, हॉटकी दबाए रखें, बग का वर्णन करें जबकि आप error को देख रहे हैं। कोई विंडो स्विचिंग नहीं। कोई कॉपी-पेस्ट नहीं। error आपके शब्दों में है, फ़िक्स आपके टर्मिनल में है, और आपने कभी कोड से नज़र नहीं हटाई।

PR विवरण। डेवलपमेंट का सबसे बुरा हिस्सा। अब: हॉटकी दबाए रखें, बदलावों को ज़ोर से बताएँ, छोड़ें। text field में एक साफ़, संरचित PR विवरण दिखाई देता है। YOLO मोड इसे स्वचालित रूप से सबमिट करता है।

मीटिंग सारांश जो बेकार नहीं हैं। एक 45-मिनट की आर्किटेक्चरल चर्चा रिकॉर्ड करें। स्पीकर-लेबल्ड transcript, मुख्य बिंदु और action items पाएँ — आपकी कॉल में bot जोड़े बिना। Vext सिस्टम ऑडियो और माइक्रोफ़ोन को एक साथ कैप्चर करता है; कोई third party आपकी मीटिंग से कनेक्ट नहीं होती।

Octomind के साथ एजेंट डीबगिंग। एक Octomind एजेंट एक flaky test पर अटक जाता है। हॉटकी दबाए रखें, जो आप देख रहे हैं उसका वर्णन करें, error trace ड्रैग करें। retry prompt में पूरा विज़ुअल कॉन्टेक्स्ट शामिल होता है। कोई tab-स्विचिंग नहीं। कोई कॉपी-पेस्ट नहीं। एजेंट टास्क पूरा करता है जबकि आप अगले पर बढ़ जाते हैं।

रियल-टाइम में लाइव अनुवाद। अंग्रेज़ी बोलें, कर्सर पर रूसी पाएँ। या स्पेनिश, जापानी, फ़्रेंच — 99+ लक्षित भाषाएँ। ट्रांसक्रिप्शन और अनुवाद एक पास में, स्थानीय रूप से होते हैं। वही हॉटकी वर्कफ़्लो।

क्या आ रहा है

Vext 1.1 आज ऊपर वर्णित सभी चीज़ों के साथ शिप होता है। हमारे पास एक रोडमैप है जिसमें शामिल हैं:

स्थानीय रूप से सिंक करने वाली dictation-on-the-go के लिए iOS companion ऐप
ऐप-विशिष्ट क्रियाओं के लिए कस्टम वॉइस कमांड्स
Muvon एजेंट इकोसिस्टम (Octomind + Octobrain) के साथ गहरा एकीकरण

लेकिन कोर — local-first, आर्किटेक्चर द्वारा प्राइवेसी, कोई सब्सक्रिप्शन नहीं — वह नहीं बदल रहा।

FAQ

Vext क्या है?

Vext Mac के लिए एक वॉइस-टू-टेक्स्ट ऐप है जो पूरी तरह आपकी मशीन पर चलता है। एक हॉटकी दबाए रखें, बोलें, छोड़ें — आपके शब्द किसी भी ऐप में कर्सर पर दिखाई देते हैं, साफ़-सुथरे और भेजने के लिए तैयार। कोई क्लाउड नहीं, कोई अकाउंट नहीं, कोई सब्सक्रिप्शन नहीं। $24.50 एक बार।

क्या Vext मेरा ऑडियो क्लाउड में भेजता है?

नहीं। स्पीच रिकग्निशन (Whisper, Parakeet), AI क्लीनअप (Gemma 3, Qwen 3, LLaMA 3.2, Phi-3.5), अनुवाद और सारांश सभी Apple Silicon पर स्थानीय रूप से चलते हैं। आपका कोई ऑडियो आपके Mac से नहीं निकलता जब तक कि आप स्पष्ट रूप से अपनी ख़ुद की OpenAI-कम्पैटिबल API key न लाएँ।

यह कौन-से Mac सपोर्ट करता है?

Apple Silicon (M1, M2, M3, M4)। Parakeet M-सीरीज़ चिप्स पर रियल-टाइम से लगभग 150× तेज़ चलता है।

Vext की तुलना Wispr Flow, Granola, या Otter.ai से कैसी है?

Vext एक-बार का $24.50 है; Wispr Flow $12–15/माह चलता है, Granola $14–35/माह, Otter.ai $8–17/माह। दो-वर्षीय लागत: $24.50 बनाम $200–840। Vext एकमात्र है जो सब कुछ स्थानीय रूप से प्रोसेस करता है, ऑफ़लाइन काम करता है, और डिक्टेशन के साथ स्क्रीनशॉट्स पेस्ट करता है।

क्या मेरी मीटिंग्स में bot जुड़ता है?

नहीं। Vext सिस्टम ऑडियो और माइक्रोफ़ोन को स्थानीय रूप से कैप्चर करता है। कोई third-party सेवा Zoom, Google Meet, या FaceTime से कनेक्ट नहीं होती। रिकॉर्डिंग आपके Mac पर रहती है।

क्या मैं अपना ख़ुद का AI प्रोवाइडर उपयोग कर सकता हूँ?

हाँ। Vext क्लीनअप और सारांश के लिए किसी भी OpenAI-कम्पैटिबल API (OpenAI, OpenRouter, लोकल Ollama, कस्टम endpoints) का समर्थन करता है। डिफ़ॉल्ट लोकल मॉडल्स के साथ शिप होता है, इसलिए शुरू करने के लिए आपको key की आवश्यकता नहीं है।

क्या यह किसी भी ऐप में काम करता है?

हाँ। macOS पर कोई भी text field — ब्राउज़र, टर्मिनल, VS Code, Slack, Claude Desktop, Cursor, Codex CLI। Vext कर्सर पर पेस्ट करता है।

यह कौन-सी भाषाएँ सपोर्ट करता है?

ट्रांसक्रिप्शन और अनुवाद के लिए 99+ भाषाएँ। एक भाषा में बोलें, दूसरी भाषा में टेक्स्ट पाएँ, एक पास में — स्थानीय रूप से।

इसे आज़माएँ

Vext अब getvext.app पर उपलब्ध है। आज़माने के लिए मुफ़्त — 100 डिक्टेशन्स, 50 नोट्स, 10 मीटिंग्स। कोई अकाउंट आवश्यक नहीं। कोई डेटा एकत्र नहीं किया गया।

# या यदि आप टर्मिनल पसंद करते हैं
brew install muvon/tap/vext

लॉन्च प्रोमो: कोड VEXT50 के साथ 1 जून तक 50% छूट। $24.50 एक बार, हमेशा के लिए।

हमने इसे बनाया क्योंकि हमें इसकी आवश्यकता थी। हर टूल जो हम उपयोग करते हैं — Octomind, Claude, Codex, Cursor — उस क्षण तेज़ हो गया जब हमने टाइप करना बंद किया और बोलना शुरू किया। यदि आप अपना दिन AI टूल्स में बिताते हैं, तो आप भी होंगे।

आपकी आवाज़ कभी आपके Mac से नहीं निकलती। आपके विचार LLM की गति से आते हैं। और की-बोर्ड वैकल्पिक हो जाता है।

समस्या हम ख़ुद थे

वॉइस + विज़न, हैंड्स-फ़्री

विश्वास का आर्किटेक्चर

तीन मोड, एक ऐप

स्पीकर्स को एक बार लेबल करें। हमेशा के लिए पहचाने जाएँगे।

एक क़ीमत का अर्थशास्त्र

शुरुआती उपयोगकर्ता क्या कर रहे हैं

क्या आ रहा है

FAQ

इसे आज़माएँ

संबंधित लेख

AI एजेंट को फाइल सिस्टम दें, पर अपना पूरा फाइल सिस्टम नहीं

एक AI एजेंट, कई मॉडलों पर: Octomind के लिए मल्टी-मॉडल रूटिंग गाइड

शोर के बिना AI एजेंट मेमोरी: Octobrain के साथ स्कोप और भूलना