PDF 추출¶
PDF 추출 스킬은 PDF 파일에서 표(table)와 텍스트를 추출합니다. 격자형(bordered) 표와 비격자형(borderless) 표 모두 지원합니다.
설정 방법¶
1. 스킬 노드 추가 및 선택¶
스킬 노드를 추가하고 우측 패널에서 PDF 추출을 선택합니다.
2. 파라미터 입력¶
설정 탭에서 PDF 소스(파일 경로, URL, 또는 이전 노드의 파일 참조)와 추출 모드를 설정합니다.
파라미터¶
| 파라미터 | 필수 | 설명 |
|---|---|---|
| source | O | PDF 파일 경로, URL, 또는 base64 데이터 |
| extraction_mode | 추출 모드 (tables, text, mixed) — 기본: tables |
|
| table_settings | 표 추출 설정 (아래 참조) |
table_settings¶
| 항목 | 설명 |
|---|---|
| pages | 페이지 범위 (all, 1, 1-3) |
| strategy | 추출 전략 (auto, lattice, stream) — 기본: auto |
| merge_tables | 여러 표를 하나로 병합 (기본: false) |
추출 전략 선택
- lattice: 격자선이 있는 표 (정확도 높음)
- stream: 격자선이 없는 표 (공백 기반 감지)
- auto: 자동 선택 (lattice 우선 시도)
출력¶
{
"success": true,
"data": {
"rows": [
{"상품명": "노트북", "수량": "10", "단가": "1,200,000"},
{"상품명": "모니터", "수량": "5", "단가": "450,000"}
],
"columns": ["상품명", "수량", "단가"],
"row_count": 2,
"metadata": {
"source_type": "pdf",
"table_index": 0,
"page": 1,
"accuracy": 0.95,
"strategy": "lattice"
}
}
}
사용 예시¶
청구서 PDF → 데이터 추출 → DB 저장¶
PDF → AI 분석¶
참고¶
- PDF에 여러 표가 있으면 각 표를 개별 결과로 반환합니다.
storage://S3 참조, presigned URL, base64 모두 지원합니다.- 추출 정확도(accuracy)가 메타데이터에 포함됩니다.



