PDF 추출¶

PDF 추출 스킬은 PDF 파일에서 표(table)와 텍스트를 추출합니다. 격자형(bordered) 표와 비격자형(borderless) 표 모두 지원합니다.

설정 방법¶

1. 스킬 노드 추가 및 선택¶

스킬 노드를 추가하고 우측 패널에서 PDF 추출을 선택합니다.

2. 파라미터 입력¶

설정 탭에서 PDF 소스(파일 경로, URL, 또는 이전 노드의 파일 참조)와 추출 모드를 설정합니다.

파라미터¶

파라미터	필수	설명
source	O	PDF 파일 경로, URL, 또는 base64 데이터
extraction_mode		추출 모드 (`tables`, `text`, `mixed`) — 기본: tables
table_settings		표 추출 설정 (아래 참조)

table_settings¶

항목	설명
pages	페이지 범위 (`all`, `1`, `1-3`)
strategy	추출 전략 (`auto`, `lattice`, `stream`) — 기본: auto
merge_tables	여러 표를 하나로 병합 (기본: false)

추출 전략 선택

lattice: 격자선이 있는 표 (정확도 높음)
stream: 격자선이 없는 표 (공백 기반 감지)
auto: 자동 선택 (lattice 우선 시도)

출력¶

{
  "success": true,
  "data": {
    "rows": [
      {"상품명": "노트북", "수량": "10", "단가": "1,200,000"},
      {"상품명": "모니터", "수량": "5", "단가": "450,000"}
    ],
    "columns": ["상품명", "수량", "단가"],
    "row_count": 2,
    "metadata": {
      "source_type": "pdf",
      "table_index": 0,
      "page": 1,
      "accuracy": 0.95,
      "strategy": "lattice"
    }
  }
}

사용 예시¶

청구서 PDF → 데이터 추출 → DB 저장¶

PDF → AI 분석¶

참고¶

PDF에 여러 표가 있으면 각 표를 개별 결과로 반환합니다.
storage:// S3 참조, presigned URL, base64 모두 지원합니다.
추출 정확도(accuracy)가 메타데이터에 포함됩니다.