Back to Docs
Guía de producto

Transcripción de voz

Ciclo de vida de grabación, gestión de dispositivos y comportamiento de streaming para prompts impulsados por voz.

5 min read

La transcripción de voz está disponible en cualquier lugar donde la aplicación de escritorio exponga controles de dictado, incluido el terminal del plan y los editores de prompts. La función graba audio localmente, envía fragmentos al servicio de transcripción e inserta texto reconocido en el campo de entrada activo sin bloquear la escritura manual.

Flujo de trabajo de grabación

El hook de grabación mantiene una máquina de estados con estados inactivo, grabando, procesando y error. Rastrea la duración, gestiona la detección de silencio y asegura que las grabaciones se detengan automáticamente después de diez minutos. Los fragmentos se almacenan en búfer y se reenvían a la acción de transcripción, que devuelve texto reconocido para inserción.

Configuraciones conscientes del proyecto

Cuando se inicia una sesión de grabación, el hook busca la configuración de transcripción del proyecto activo. Los códigos de idioma, modelos preferidos y otras configuraciones se recuperan antes de capturar audio para que las grabaciones sigan las preferencias del proyecto.

Gestión de dispositivos

La función solicita permiso de micrófono, enumera las entradas de audio disponibles y permite a los usuarios cambiar dispositivos durante una sesión. Los niveles de audio se monitorean en vivo para que la interfaz pueda mostrar advertencias de silencio si el micrófono está silenciado o desconectado.

Transcripción de voz - PlanToCode