Which languages are supported for voice transcription?

OpenAI transcription supports multiple languages. You can set a default language per project.

Which AI model is used for transcription?

We use OpenAI transcription for accurate results.

Can I customize transcription settings per project?

Yes. You can configure language and model settings for each project. Settings are stored in the project configuration and shared across team members.

Where can I use voice transcription in the app?

Voice transcription works in two places: (1) Task description panel - dictate implementation requirements, and (2) Terminal modal - dictate commands that are appended to your active shell session.

Does voice transcription work offline?

No, voice transcription requires an internet connection to send audio to OpenAI Whisper API. The transcription happens in real-time with minimal latency.

개발자를 위한 음성 전사

음성으로 신속한 명세 캡처

요구사항과 아이디어를 자연스럽게 말하세요. 이것이 명세 워크플로의 첫 번째 단계입니다: 음성으로 아이디어를 빠르게 캡처한 다음 AI 기반 프롬프트로 수동으로 개선합니다. 개선 전에 초기 명세를 캡처하는 가장 빠른 방법.

음성이 명세 캡처를 가속화하는 이유

사라지기 전에 아이디어 캡처

이해관계자는 타이핑하는 것보다 빠르게 생각합니다. 손가락이 따라잡는 동안 요구사항과 컨텍스트가 손실됩니다. 음성을 사용하면 중요한 세부사항이 사라지기 전에 완전한 명세를 캡처할 수 있습니다.

손이 바쁠 때 설명하기 어려움

코드를 검토하나요? 디버깅하나요? 아키텍처 다이어그램을 그리나요? 손이 바쁘지만 작업을 기록해야 합니다. 음성 전사가 플로우를 유지합니다.

컨텍스트 전환이 모멘텀을 죽임

하던 일을 멈추고 메모 앱을 열고, 타이핑하고, 돌아갑니다. 모든 전환이 집중력을 깨뜨립니다. 음성은 동일한 작업 공간에 머무릅니다.

주요 기능

다국어 지원

OpenAI 전사는 여러 언어를 지원합니다.

프로젝트별 구성

프로젝트 기본값을 설정합니다. 팀이 합리적인 기본값을 공유합니다.

터미널 받아쓰기

터미널 세션에 명령을 직접 받아쓰기합니다.

정확도 벤치마크

What is Word Error Rate (WER)?

WER = (Substitutions + Deletions + Insertions) / Reference words. Lower is better.

Substitution: a word is transcribed incorrectly
Deletion: a word is omitted
Insertion: an extra word is added

In technical workflows, small WER differences can flip flags, units, or constraints—creating ambiguous tickets and rework. High accuracy preserves intent and enables precise, implementation-ready specifications.

gpt-4o-transcribe shows the lowest WER in this benchmark. Even a 1–2% absolute WER reduction can remove multiple mistakes per paragraph.

About these models

OpenAI gpt-4o-transcribe — 정확성과 지연 시간에 최적화된 고급 다국어 음성 모델.
Google Speech-to-Text v2 — Google의 클라우드 음성 인식.
AWS Transcribe — Amazon Web Services의 관리형 음성 인식.
Whisper large-v2 — 비교를 위한 오픈 소스 대규모 모델 기준.

결론: 적은 오류는 모호한 티켓과 재작업을 줄입니다. gpt-4o-transcribe는 팀이 첫 번째 시도에서 정확하고 구현 준비가 된 명세를 캡처하는 데 도움이 됩니다.

예시: 명세 캡처

Illustrative Example: Capturing Specifications

OpenAI gpt-4o-transcribe

2 vCPU, 8GB RAM으로 us-east-1에 Postgres 읽기 복제본을 생성하고 논리적 복제를 활성화합니다. wal_level=logical 및 max_wal_senders=10을 설정합니다.

accurate

경쟁사 모델

2개의 CPU, 8GB RAM으로 us-east에 Postgres 복제본을 생성하고 복제를 활성화합니다. wal 수준을 논리적으로 설정하고 최대 발신자를 10으로 설정합니다.

Errors — Substitutions: 13, Deletions: 0, Insertions: 4. Even a few errors can invert flags or units.

Impact: Mishearing "read-replica" as "replica", dropping region suffix "-1", or changing "wal_level=logical" can lead to incorrect deployments or data flows.

실제 사용 사례

핸즈프리로 아이디어 캡처

Scenario:

디버깅 세션에 깊이 빠져 있습니다. 수정이 필요한 세 가지 관련 문제를 발견합니다. 터미널을 떠나지 않고 음성 녹음기에 말합니다.

Outcome:

아이디어가 즉시 기록됩니다. 플로우를 깨지 않고 디버깅으로 돌아갑니다.

코드를 검토하면서 받아쓰기

Scenario:

코드 검토에서 리팩터링 기회가 드러납니다. 손은 diff에, 눈은 화면에 있습니다. 음성이 작업 설명을 캡처합니다.

Outcome:

완전한 컨텍스트로 작업이 생성되었습니다. 타이핑 없음, 컨텍스트 전환 없음.

반복 작업을 위한 더 빠른 작업 입력

Scenario:

QA 테스트 후 기록할 유사한 버그가 10개 있습니다. 각각을 타이핑하는 데 2분이 걸립니다. 음성 전사는 20초가 걸립니다.

Outcome:

10배 빠른 작업 입력. QA 피드백이 시간이 아닌 분 단위로 처리됩니다.

구문을 외우지 않고 터미널 명령

Scenario:

항상 잊어버리는 플래그가 있는 복잡한 git 명령이 필요합니다. 자연스럽게 받아쓰기하고 전사가 구문을 처리하도록 합니다.

Outcome:

명령이 올바르게 입력되었습니다. 문서를 찾아보는 것보다 빠릅니다.

자주 묻는 질문

PlanToCode에 대해 알아야 할 모든 것

예. PlanToCode는 팀 리더와 이해관계자가 생성된 구현 계획을 검토하고, 세부 사항을 편집하고, 수정을 요청하고, 코딩 에이전트 또는 개발자가 실행하기 전에 변경 사항을 승인할 수 있는 인간 참여형 워크플로우를 제공합니다. 이를 통해 기업 거버넌스를 보장하고 회귀를 방지합니다.

Microsoft Teams 회의 녹화 또는 화면 캡처를 PlanToCode에 업로드합니다. 고급 멀티모달 모델이 오디오 트랜스크립트(화자 식별 포함)와 시각적 콘텐츠(공유 화면, 문서)를 모두 분석하여 사양 요구 사항을 추출합니다. 추출된 인사이트(결정 사항, 작업 항목, 토론 포인트)를 검토하고 구현 계획에 통합합니다.

예. 구현 계획은 프로젝트 구조에 해당하는 정확한 리포지토리 경로를 사용하여 파일별로 변경 사항을 세분화합니다. 이러한 세분화된 접근 방식을 통해 실행 전에 정확히 무엇이 수정될 것인지 알 수 있으며 완전한 가시성과 제어를 제공합니다.

캡처한 명세 개선

음성 전사는 명세 캡처 워크플로의 첫 번째 단계입니다. 요구사항을 캡처한 후 AI 기반 프롬프트를 사용하여 초안 전사를 명확하고 구현 준비가 된 명세로 변환하세요.

텍스트 개선

원래 의도를 보존하면서 문법을 다듬고 명확성을 개선하며 가독성을 향상시킵니다.

작업 개선

암시된 요구사항, 엣지 케이스 및 기술적 고려사항으로 설명을 확장합니다.

명세 캡처 모드에 대해 알아보기

Related Features

Discover more powerful capabilities that work together

features

Voice to Terminal Commands

Speak naturally, execute precisely. No more typing complex commands.

Learn more

features

AI File Discovery for Smart Context

AI finds the files that matter for your task

Learn more

features

Multi-Model Planning Synthesis

Get the best insights from GPT-5.2, Claude, and Gemini combined

Learn more

음성으로 명세 캡처 시작하기

음성에서 개선된 명세까지 원활하게. 요구사항을 핸즈프리로 캡처한 다음 AI 프롬프트로 개선합니다. 이것이 기업 팀이 요구사항을 캡처하고 명확히 해야 하는 방식입니다.

터미널 통합 보기•텍스트 개선 살펴보기

음성으로 신속한 명세 캡처

음성이 명세 캡처를 가속화하는 이유

사라지기 전에 아이디어 캡처

손이 바쁠 때 설명하기 어려움

컨텍스트 전환이 모멘텀을 죽임

주요 기능

다국어 지원

프로젝트별 구성

터미널 받아쓰기

정확도 벤치마크

Accuracy Benchmarks

What is Word Error Rate (WER)?

예시: 명세 캡처

Illustrative Example: Capturing Specifications

OpenAI gpt-4o-transcribe

경쟁사 모델

실제 사용 사례

핸즈프리로 아이디어 캡처

코드를 검토하면서 받아쓰기

반복 작업을 위한 더 빠른 작업 입력

구문을 외우지 않고 터미널 명령

자주 묻는 질문

캡처한 명세 개선

텍스트 개선

작업 개선

Related Features

Voice to Terminal Commands

AI File Discovery for Smart Context

Multi-Model Planning Synthesis

음성으로 명세 캡처 시작하기