ドキュメントに戻る
入力

ミーティング & 録画取り込み

録画が構造化されたタスク入力とアーティファクトになる方法。

8分 で読めます

PlanToCodeはミーティング録画と画面キャプチャを処理してタスク関連情報を抽出できます。このドキュメントは録画から構造化アーティファクトまでの取り込みワークフローを説明します。

録画取り込みフロー

録画が文字起こしと分析をどのように流れるか。

録画取り込みフロー図
Click to expand
取り込みフロー図のプレースホルダー。

サポートされる入力

ミーティング取り込みパイプラインは様々な録画フォーマットを受け付けます:

  • 画面録画(MP4、WebM、MOV)
  • Zoom、Meet、Teamsからのミーティング録画
  • 音声のみのファイル(MP3、WAV、M4A)
  • デスクトップからの直接画面キャプチャ

アップロードプロセス

録画はマルチパートフォームデータでサーバーにアップロードされます:

処理ステップ

  1. ファイルをサーバー一時ストレージにアップロード
  2. メタデータを抽出(長さ、フォーマット、解像度)
  3. 文字起こし用にオーディオトラックを分離
  4. 視覚分析用にビデオフレームをサンプリング
  5. 結果を結合してクライアントに返す

フォーマット正規化

様々な入力フォーマットは処理前に正規化されます。オーディオはWhisper互換性のために16kHzモノラルWAVに変換されます。ビデオは設定可能なフレームサンプリングでネイティブ解像度で処理されます。

正規化された出力により、入力フォーマットに関係なく一貫したダウンストリーム処理が保証されます。

マルチモーダル分析

オーディオとビデオの両方を持つ録画はマルチモーダルモデルを使用して分析されます。google/*プレフィックスを持つモデルはネイティブビデオ理解をサポートします。

オーディオ文字起こしと視覚分析が結合され、録画コンテンツの包括的な理解が生成されます。

オーディオ文字起こし

オーディオトラックはサーバーAPI経由でOpenAI Whisperを使用して文字起こしされます。

スピーカーダイアリゼーションは複数の声が検出された場合にテキストを異なるスピーカーに帰属させようとします。

文字起こし機能

  • 自動検出による複数言語サポート
  • アラインメント用の単語レベルタイムスタンプ
  • スピーカーダイアリゼーション(マルチスピーカー)
  • 句読点とフォーマットの復元

フレームサンプリング

ビデオフレームはUI状態の変化とユーザーアクションをキャプチャするために設定可能な間隔でサンプリングされます。

各フレームにはオーディオトランスクリプトとの相関のためにタイムスタンプが含まれます。

構造化抽出

結合された分析は計画に適した構造化出力を生成します:

抽出された要素

  • 言及されたアクションアイテムと決定
  • 表示されたUI要素とナビゲーションパス
  • デモンストレーションされたエラー状態と問題
  • 実装のための技術コンテキスト

分析アーティファクト

ミーティング分析はセッションに保存されるいくつかのアーティファクトを生成します:

  • meeting_transcript:タイムスタンプ付きの完全なテキスト
  • action_items:抽出されたタスクと決定
  • ui_observations:視覚的状態変化
  • combined_context:マージされた分析サマリー

主要ソースファイル

  • desktop/src/components/meeting/MeetingUploader.tsx
  • server/src/handlers/proxy/video_handler.rs
  • server/src/services/video_processor.rs

計画へのハンドオフ

ミーティング分析アーティファクトはタスク説明に組み込むことができます:

結合されたコンテキストはファイル検出と計画生成パイプラインに流れ、実装計画のための豊富なコンテキストを提供します。

ビデオ分析へ続く

ビデオフレームがどのように分析されるかについてもっと学びましょう。