문서로 돌아가기
입력

회의 및 녹화 수집

녹화가 구조화된 작업 입력 및 아티팩트가 되는 방법.

8분 읽기

PlanToCode는 회의 녹화와 화면 캡처를 처리하여 작업 관련 정보를 추출할 수 있습니다. 이 문서는 녹화에서 구조화된 아티팩트까지의 수집 워크플로우를 설명합니다.

녹화 수집 흐름

녹화가 전사 및 분석을 통해 흐르는 방법.

녹화 수집 흐름 다이어그램
Click to expand
수집 흐름 다이어그램을 위한 플레이스홀더.

지원되는 입력

회의 수집 파이프라인은 다양한 녹화 형식을 수용합니다:

  • 화면 녹화 (MP4, WebM, MOV)
  • Zoom, Meet, Teams의 회의 녹화
  • 오디오 전용 파일 (MP3, WAV, M4A)
  • 데스크톱에서 직접 화면 캡처

업로드 프로세스

녹화는 멀티파트 폼 데이터를 통해 서버로 업로드됩니다:

처리 단계

  1. 파일이 서버 임시 저장소에 업로드됨
  2. 메타데이터 추출 (재생 시간, 형식, 해상도)
  3. 전사를 위해 오디오 트랙 분리
  4. 비주얼 분석을 위해 비디오 프레임 샘플링
  5. 결과가 결합되어 클라이언트로 반환

형식 정규화

처리 전에 다양한 입력 형식이 정규화됩니다. 오디오는 Whisper 호환성을 위해 16kHz 모노 WAV로 변환됩니다. 비디오는 구성 가능한 프레임 샘플링으로 네이티브 해상도에서 처리됩니다.

정규화된 출력은 입력 형식에 관계없이 일관된 다운스트림 처리를 보장합니다.

멀티모달 분석

오디오와 비디오가 모두 있는 녹화는 멀티모달 모델을 사용하여 분석됩니다. google/* 접두사가 있는 모델은 네이티브 비디오 이해를 지원합니다.

오디오 전사와 비주얼 분석이 결합되어 녹화 콘텐츠에 대한 포괄적인 이해를 생성합니다.

오디오 전사

오디오 트랙은 서버 API를 통해 OpenAI Whisper를 사용하여 전사됩니다.

화자 분리는 여러 음성이 감지될 때 텍스트를 다른 화자에게 귀속시키려고 시도합니다.

전사 기능

  • 자동 감지가 있는 다국어 지원
  • 정렬을 위한 단어 수준 타임스탬프
  • 화자 분리 (다중 화자)
  • 구두점 및 서식 복원

프레임 샘플링

비디오 프레임은 UI 상태 변경 및 사용자 작업을 캡처하기 위해 구성 가능한 간격으로 샘플링됩니다.

각 프레임에는 오디오 전사와의 상관관계를 위한 타임스탬프가 포함됩니다.

구조화된 추출

결합된 분석은 계획에 적합한 구조화된 출력을 생성합니다:

추출된 요소

  • 언급된 액션 아이템 및 결정사항
  • 표시된 UI 요소 및 탐색 경로
  • 시연된 오류 상태 및 이슈
  • 구현을 위한 기술적 컨텍스트

분석 아티팩트

회의 분석은 세션에 저장되는 여러 아티팩트를 생성합니다:

  • meeting_transcript: 타임스탬프가 있는 전체 텍스트
  • action_items: 추출된 작업 및 결정사항
  • ui_observations: 비주얼 상태 변경
  • combined_context: 병합된 분석 요약

주요 소스 파일

  • desktop/src/components/meeting/MeetingUploader.tsx
  • server/src/handlers/proxy/video_handler.rs
  • server/src/services/video_processor.rs

계획 핸드오프

회의 분석 아티팩트는 작업 설명에 통합될 수 있습니다:

결합된 컨텍스트는 파일 탐색 및 계획 생성 파이프라인으로 흘러가며 구현 계획을 위한 풍부한 컨텍스트를 제공합니다.

비디오 분석으로 계속

비디오 프레임이 어떻게 분석되는지 자세히 알아보세요.