ドキュメントに戻る
入力

ビデオ分析

録画からのフレームサンプリング、プロンプト、分析アーティファクト。

6分 で読めます

ビデオ分析は画面録画からUI状態とアクションシーケンスを抽出します。これによりユーザーワークフローとバグ再現コンテキストの理解が可能になります。

ビデオ分析パイプライン

フレームが分析モデルをどのように流れるか。

ビデオ分析インターフェース
Click to expand
フレームキャプチャと分析オプションを表示するビデオ分析インターフェース。

APIエンドポイント

ビデオ分析はサーバーの/api/llm/video/analyzeで処理されます。エンドポイントはビデオファイルと分析パラメータを含むマルチパートフォームデータを受け付けます。

ペイロードフィールド

  • video:ビデオファイル(MP4、WebM、MOV)
  • model:分析用のモデル識別子
  • prompt:オプションのカスタム分析プロンプト
  • max_frames:サンプリングする最大フレーム数
  • fps:フレームサンプリングレート

サポートされる入力フォーマット

  • H.264またはH.265コーデック付きMP4
  • VP8またはVP9コーデック付きWebM
  • 画面録画ツールからのMOV
  • 最大ファイルサイズ:100MB

フレームサンプリング

フレームはカバレッジとAPIコストのバランスを取るために設定可能な間隔で抽出されます。低いフレームレートはトークン使用量を削減しますが、急速な変化を見逃す可能性があります。

デフォルトレートは毎秒1フレームです。詳細なUI分析には2-3 FPSが必要な場合があります。

サンプリングパラメータ

  • fps:抽出する秒あたりのフレーム数(0.5-5)
  • max_frames:最大総フレーム数(10-100)
  • start_time:サンプリング開始オフセット
  • end_time:サンプリング停止オフセット

モデル要件

ビデオ分析にはビジョン対応モデルが必要です。モデル識別子はprovider/modelフォーマットに従います。現在、google/*モデルのみがネイティブビデオ分析をサポートしています。

Google Geminiモデルはビデオをネイティブで処理できますが、他のビジョンモデルはフレームごとの画像分析が必要です。

分析プロセス

サンプリングされたフレームは分析プロンプトとともにビジョンモデルに送信されます。モデルはUI状態とユーザーアクションに関する構造化された観察を生成します。

システムプロンプトがモデルを録画の特定の側面に焦点を当てるようガイドします。

プロンプト要素

  • UIインベントリ:可視要素とコントロールをリスト
  • アクションシーケンス:ユーザーアクションを順序で説明
  • エラー検出:エラー状態とメッセージを特定
  • ナビゲーションパス:画面遷移を追跡

分析出力

  • frame_observations:フレームごとのUI説明
  • action_timeline:ユーザーアクションの順序付きリスト
  • error_summary:観察されたエラーまたは問題
  • context_summary:ハイレベルワークフロー説明

トークン使用量 & 課金

ビデオ分析はフレーム数と解像度に基づいてトークンを消費します。各フレームは画像トークンとして処理されます。

  • tokens_sent:プロンプト + 画像トークン
  • tokens_received:分析レスポンストークン
  • actual_cost:モデル価格から計算

結果ストレージ

分析結果はtask_type 'video_analysis'でbackground_jobsテーブルに保存されます。レスポンスにはJSONフォーマットの完全な分析が含まれます。

結果はタスク説明に組み込むか、計画ワークフローで直接使用できます。

主要ソースファイル

  • server/src/handlers/proxy/video_handler.rs
  • server/src/services/video_processor.rs
  • desktop/src/components/video/VideoAnalyzer.tsx

計画との統合

ビデオ分析出力はコンテキスト対応計画のためにタスク説明に直接フィードできます。

context_summaryは実装計画の出発点として特に有用です。

ミーティング取り込みを見る

ビデオ分析がより広いミーティング取り込みワークフローにどのように適合するかを学びましょう。