Which languages are supported for voice transcription?

OpenAI transcription supports multiple languages. You can set a default language per project.

Which AI model is used for transcription?

We use OpenAI transcription for accurate results.

Can I customize transcription settings per project?

Yes. You can configure language and model settings for each project. Settings are stored in the project configuration and shared across team members.

Where can I use voice transcription in the app?

Voice transcription works in two places: (1) Task description panel - dictate implementation requirements, and (2) Terminal modal - dictate commands that are appended to your active shell session.

Does voice transcription work offline?

No, voice transcription requires an internet connection to send audio to OpenAI Whisper API. The transcription happens in real-time with minimal latency.

Transcription vocale pour développeurs

Capture rapide de spécifications avec la voix

Énoncez vos exigences et idées naturellement. C'est la première étape de votre workflow de spécification : capturez rapidement les idées avec la voix, puis raffinez-les manuellement avec des prompts pilotés par l'IA. Le moyen le plus rapide de capturer les spécifications initiales avant le raffinement.

Pourquoi la voix accélère la capture de spécifications

Capturez les idées avant qu'elles ne s'estompent

Les parties prenantes pensent plus vite qu'elles ne tapent. Les exigences et le contexte se perdent pendant que les doigts rattrapent. La voix vous permet de capturer la spécification complète avant que les détails critiques ne s'estompent.

Difficile de décrire lorsque les mains sont occupées

En train de réviser du code ? De déboguer ? De dessiner des diagrammes d'architecture ? Vos mains sont occupées mais vous devez enregistrer la tâche. La transcription vocale vous maintient dans le flux.

Le changement de contexte tue l'élan

Arrêtez ce que vous faites pour ouvrir une application de notes, taper, puis revenir. Chaque changement brise la concentration. La voix reste dans le même espace de travail.

Capacités clés

Support de plusieurs langues

La transcription OpenAI prend en charge plusieurs langues.

Configuration par projet

Définissez les valeurs par défaut du projet. Votre équipe partage des valeurs par défaut sensées.

Dictée dans le terminal

Dictez les commandes directement à votre session de terminal.

Benchmarks de précision

What is Word Error Rate (WER)?

WER = (Substitutions + Deletions + Insertions) / Reference words. Lower is better.

Substitution: a word is transcribed incorrectly
Deletion: a word is omitted
Insertion: an extra word is added

In technical workflows, small WER differences can flip flags, units, or constraints—creating ambiguous tickets and rework. High accuracy preserves intent and enables precise, implementation-ready specifications.

gpt-4o-transcribe shows the lowest WER in this benchmark. Even a 1–2% absolute WER reduction can remove multiple mistakes per paragraph.

About these models

OpenAI gpt-4o-transcribe — modèle vocal multilingue avancé optimisé pour la précision et la latence.
Google Speech-to-Text v2 — reconnaissance vocale cloud par Google.
AWS Transcribe — reconnaissance vocale gérée par Amazon Web Services.
Whisper large-v2 — référence de modèle large open-source pour comparaison.

En résumé : Moins d'erreurs signifie moins de tickets ambigus et moins de retravail. gpt-4o-transcribe aide les équipes à capturer des spécifications précises et prêtes pour l'implémentation du premier coup.

Exemple illustratif : capture de spécifications

Illustrative Example: Capturing Specifications

OpenAI gpt-4o-transcribe

Créer un read-replica Postgres dans us-east-1 avec 2 vCPU, 8 GB RAM, et activer la réplication logique ; définir wal_level=logical et max_wal_senders=10.

accurate

Modèle concurrent

Créer une réplique Postgres dans us-east avec 2 CPU, 8GB RAM, et activer la réplication ; définir le niveau wal logique et les expéditeurs max égal dix.

Errors — Substitutions: 9, Deletions: 0, Insertions: 12. Even a few errors can invert flags or units.

Impact: Mishearing "read-replica" as "replica", dropping region suffix "-1", or changing "wal_level=logical" can lead to incorrect deployments or data flows.

Cas d'usage réels

Capturer des idées mains libres

Scenario:

Vous êtes plongé dans une session de débogage. Vous repérez trois problèmes liés qui nécessitent une correction. Énoncez-les dans l'enregistreur vocal sans quitter votre terminal.

Outcome:

Idées enregistrées instantanément. Retour au débogage sans casser le flux.

Dicter pendant la révision de code

Scenario:

La révision de code révèle une opportunité de refactoring. Vos mains sont sur le diff, les yeux sur l'écran. La voix capture la description de la tâche.

Outcome:

Tâche créée avec contexte complet, zéro frappe, pas de changement de contexte.

Saisie de tâches plus rapide pour le travail répétitif

Scenario:

Vous avez 10 bugs similaires à enregistrer après les tests QA. Taper chacun prend 2 minutes. La transcription vocale prend 20 secondes.

Outcome:

Saisie de tâches 10x plus rapide. Retour QA traité en minutes au lieu d'heures.

Commandes de terminal sans mémoriser la syntaxe

Scenario:

Besoin d'une commande git complexe avec des flags que vous oubliez toujours. Dictez-la naturellement, laissez la transcription gérer la syntaxe.

Outcome:

Commandes saisies correctement, plus rapidement que de chercher dans la documentation.

Questions fréquemment posées

Tout ce que vous devez savoir sur PlanToCode

Oui. PlanToCode fournit un workflow avec humain dans la boucle où les chefs d'équipe et les parties prenantes peuvent examiner les plans de mise en œuvre générés, modifier les détails, demander des modifications et approuver les changements avant leur exécution par des agents de codage ou des développeurs. Cela garantit la gouvernance d'entreprise et prévient les régressions.

Téléchargez des enregistrements de réunions Microsoft Teams ou des captures d'écran vers PlanToCode. Des modèles multimodaux avancés analysent à la fois les transcriptions audio (y compris l'identification des locuteurs) et le contenu visuel (écrans partagés, documents) pour extraire les exigences de spécification. Vous examinez les informations extraites - décisions, éléments d'action, points de discussion - et les incorporez dans les plans de mise en œuvre.

Oui. Les plans de mise en œuvre décomposent les changements fichier par fichier avec des chemins de référentiel exacts correspondant à votre structure de projet. Cette approche granulaire garantit que vous savez exactement ce qui sera modifié avant l'exécution, offrant une visibilité et un contrôle complets.

Raffinez vos spécifications capturées

La transcription vocale est la première étape de notre workflow de capture de spécifications. Une fois que vous avez capturé vos exigences, utilisez des prompts pilotés par l'IA pour transformer les transcriptions brutes en spécifications claires et prêtes pour l'implémentation.

Amélioration de texte

Polissez la grammaire, améliorez la clarté et augmentez la lisibilité tout en préservant votre intention originale.

Raffinement de tâche

Étendez les descriptions avec exigences implicites, cas limites et considérations techniques.

En savoir plus sur le Mode de capture de spécifications

Related Features

Discover more powerful capabilities that work together

features

Voice to Terminal Commands

Speak naturally, execute precisely. No more typing complex commands.

Learn more

features

AI File Discovery for Smart Context

AI finds the files that matter for your task

Learn more

features

Multi-Model Planning Synthesis

Get the best insights from GPT-5.2, Claude, and Gemini combined

Learn more

Commencez à capturer des spécifications avec la voix

De la voix aux spécifications raffinées, de manière transparente. Capturez les exigences mains libres, puis raffinez avec des prompts IA. C'est ainsi que les équipes d'entreprise devraient capturer et clarifier les exigences.

Voir l'intégration du terminal•Explorer l'amélioration de texte

Capture rapide de spécifications avec la voix

Pourquoi la voix accélère la capture de spécifications

Capturez les idées avant qu'elles ne s'estompent

Difficile de décrire lorsque les mains sont occupées

Le changement de contexte tue l'élan

Capacités clés

Support de plusieurs langues

Configuration par projet

Dictée dans le terminal

Benchmarks de précision

Accuracy Benchmarks

What is Word Error Rate (WER)?

Exemple illustratif : capture de spécifications

Illustrative Example: Capturing Specifications

OpenAI gpt-4o-transcribe

Modèle concurrent

Cas d'usage réels

Capturer des idées mains libres

Dicter pendant la révision de code

Saisie de tâches plus rapide pour le travail répétitif

Commandes de terminal sans mémoriser la syntaxe

Questions fréquemment posées

Raffinez vos spécifications capturées

Amélioration de texte

Raffinement de tâche

Related Features

Voice to Terminal Commands

AI File Discovery for Smart Context

Multi-Model Planning Synthesis

Commencez à capturer des spécifications avec la voix