Back to Docs
製品ガイド

音声文字起こし

音声駆動プロンプトのための録音ライフサイクル、デバイス管理、ストリーミング動作。

5分 read

音声文字起こしは、プランターミナルやプロンプトエディターを含む、デスクトップアプリが口述コントロールを公開する場所ならどこでも利用可能です。この機能はオーディオをローカルで録音し、文字起こしサービスにチャンクを送信し、手動入力をブロックすることなく認識されたテキストをアクティブな入力フィールドに挿入します。

録音ワークフロー

録音フックは、アイドル、録音、処理、エラー状態を持つ状態マシンを保持します。期間を追跡し、沈黙検出を管理し、10分後に自動的に録音を停止します。チャンクはバッファリングされ、文字起こしアクションに転送され、挿入のために認識されたテキストを返します。

プロジェクト対応設定

録音セッションが開始されると、フックはアクティブなプロジェクトの文字起こし設定を検索します。言語コード、優先モデル、その他の設定は、オーディオをキャプチャする前に取得されるため、録音はプロジェクトの設定に従います。

デバイス管理

この機能はマイクの許可を要求し、利用可能なオーディオ入力を列挙し、ユーザーがセッション中にデバイスを切り替えられるようにします。オーディオレベルはリアルタイムで監視されるため、マイクがミュートまたは切断されている場合、UIは沈黙警告を表示できます。

音声文字起こし - PlanToCode