콘텐츠로 이동

PDF 추출

PDF 추출 스킬은 PDF 파일에서 표(table)와 텍스트를 추출합니다. 격자형(bordered) 표와 비격자형(borderless) 표 모두 지원합니다.


설정 방법

1. 스킬 노드 추가 및 선택

스킬 노드를 추가하고 우측 패널에서 PDF 추출을 선택합니다.

PDF 추출 스킬 선택

2. 파라미터 입력

설정 탭에서 PDF 소스(파일 경로, URL, 또는 이전 노드의 파일 참조)와 추출 모드를 설정합니다.

PDF 추출 파라미터 입력 — source, extraction_mode, table_settings 설정


파라미터

파라미터 필수 설명
source O PDF 파일 경로, URL, 또는 base64 데이터
extraction_mode 추출 모드 (tables, text, mixed) — 기본: tables
table_settings 표 추출 설정 (아래 참조)

table_settings

항목 설명
pages 페이지 범위 (all, 1, 1-3)
strategy 추출 전략 (auto, lattice, stream) — 기본: auto
merge_tables 여러 표를 하나로 병합 (기본: false)

추출 전략 선택

  • lattice: 격자선이 있는 표 (정확도 높음)
  • stream: 격자선이 없는 표 (공백 기반 감지)
  • auto: 자동 선택 (lattice 우선 시도)

출력

{
  "success": true,
  "data": {
    "rows": [
      {"상품명": "노트북", "수량": "10", "단가": "1,200,000"},
      {"상품명": "모니터", "수량": "5", "단가": "450,000"}
    ],
    "columns": ["상품명", "수량", "단가"],
    "row_count": 2,
    "metadata": {
      "source_type": "pdf",
      "table_index": 0,
      "page": 1,
      "accuracy": 0.95,
      "strategy": "lattice"
    }
  }
}

사용 예시

청구서 PDF → 데이터 추출 → DB 저장

워크플로우 예시 — 이메일 수신 → PDF 추출 → DB 쓰기

PDF → AI 분석

워크플로우 예시 — 수동 트리거 → PDF 추출 → AI 에이전트 → Telegram


참고

  • PDF에 여러 표가 있으면 각 표를 개별 결과로 반환합니다.
  • storage:// S3 참조, presigned URL, base64 모두 지원합니다.
  • 추출 정확도(accuracy)가 메타데이터에 포함됩니다.