안내 이 페이지는 국내 예산 내역 분석을 통해 AI 관련 예산 및 중복 사업 등을 알아보기 위해 개인이 만든 분석용 페이지일 뿐 공식 페이지가 아닙니다. 분석 결과는 공개된 종합예산 PDF 문서를 기초로 한 내용이라 hallucination이 있을 수 있습니다.
사업 유형 분포 (R&D / 정보화 / 일반)
R&D 예산 차이 안내 (공식 9.9조 vs 본 시스템 10.1조)
공식 집계 "9.9조"와 본 시스템의 "10.1조" 사이 약 1,500~2,000억원 차이는 다음 원인들이 복합적으로 작용한 결과입니다.
- 분류 기준 차이: 본 시스템은 사업명에 (R&D) 접미사가 있으면 해당 사업의 전체 예산을 R&D로 잡습니다. 그러나 공식 집계에서는 하나의 세부사업 내에서도 R&D 목적 경비만 분리하여 집계할 수 있습니다.
- (R&D,정보화) 중복 사업 2건 (1,846억원): SW컴퓨팅산업원천기술개발과 정보보호핵심원천기술개발은 R&D와 정보화 양쪽 성격을 가지나, 본 시스템에서는 전액 R&D로 계상합니다. 공식 집계에서는 일부가 정보화로 분리될 수 있습니다.
- 예산 기준 시점: 본 데이터의 2025 기준이 본예산(19.08조) vs 추경(21.39조)으로 나뉘며, 메타데이터에는 21.71조로 별도 기록되어 있어 기준 시점에 따라 증감액 산정이 달라집니다.
연도별 예산 변화 워터폴 (부처별 증감 기여)
부처별 사업 포트폴리오 (R&D / 정보화 / 일반)
글로벌 AI 예산 벤치마크
데이터 출처 및 참고사항
참고용 추정치이며 각국 공식 통계와 차이가 있을 수 있습니다. (출처: OECD AI Policy Observatory, Stanford AI Index 2024 참고)
법적 근거 기반 중복 탐지
동일 법적 근거를 공유하는 사업 그룹 (클릭하여 사업 목록 확인)
중복 그룹 정렬:
데이터 로드 중...
데이터 로드 중...
하이브리드 유사성 분석
유사성 분석 도움말
분석 개요
이 페이지는 2026년 AI 재정사업 533개(41개 부처, 약 27.1조원)의 유사성·중복성을 다양한 알고리즘으로 분석합니다.
각 탭은 서로 다른 목적과 알고리즘을 사용하며, 분석 관점에 따라 적합한 탭을 선택하여 활용할 수 있습니다.
탭별 분석 방법
1
유사/중복 개요
브라우저 분석
| 목적 | 전체 중복 현황 대시보드, 시각화 중심 개요 파악 |
| 알고리즘 | 키워드 기반 그룹핑 - 사전 정의된 중복 키워드(AI, 데이터, 로봇 등) 매칭 |
| 특징 | 부처간 히트맵, 버블차트, 레이더, 법적 근거 중복 탐지, 예산 절감 시뮬레이터 |
| 장점 | 직관적 시각화, 빠른 전체 현황 파악 |
| 한계 | 의미적 유사성 미탐지, 사전 정의 키워드 의존 |
2
키워드 유사성 검색
브라우저 분석
| 목적 | 사용자 지정 키워드로 유사 사업 검색 |
| 알고리즘 | 6가지 선택 가능: |
Jaccard = |A∩B| / |A∪B| (집합 기반)
Cosine = (A·B) / (‖A‖×‖B‖) (벡터 각도)
Dice = 2×|A∩B| / (|A|+|B|) (작은 집합 유리)
Overlap = |A∩B| / min(|A|,|B|) (부분집합 탐지)
TF-IDF = Σ(tf×idf) cosine (의미적 유사성)
Hybrid = 0.5×Jaccard + 0.5×Cosine (기본값)
| 특징 | AND/OR/NOT/구문 검색, 내역사업 레벨 검색 지원 |
| 장점 | 다양한 알고리즘 비교 가능, 사용자 주도 탐색 |
| 한계 | 키워드를 알아야 함, 전체 스캔 아님 |
3
유사 사업 탐색기
브라우저 분석
| 목적 | 실시간 인터랙티브 유사 사업 쌍 탐색 |
| 알고리즘 | Hybrid = 0.5×Jaccard + 0.5×Cosine (선택적 TF-IDF) |
| 특징 | 유사도 임계값 슬라이더(30~100%), TF-IDF 토글, 실시간 필터링 |
| 장점 | 인터랙티브 탐색, 민감도 즉시 조절 |
| 한계 | 브라우저 내 계산으로 대용량 시 느림 |
4
자동 스캔
브라우저 분석
| 목적 | 전체 사업 전수 스캔 + 5등급 자동 분류 |
| 알고리즘 | Hybrid + 등급 분류: |
1등급: 90%+ (완전중복)
2등급: 75-90% (고유사)
3등급: 50-75% (부분중복)
4등급: 30-50% (약유사)
5등급: 30%- (비유사)
| 특징 | 부처/등급 필터, 교차부처 매트릭스 시각화 |
| 장점 | 전수 조사, 등급별 우선순위 명확 |
| 한계 | 스캔 시간 소요(N² 복잡도), 브라우저 메모리 부담 |
5
네트워크
브라우저 분석
| 목적 | 사업간 관계 구조 시각화, 클러스터 탐지 |
| 알고리즘 | 그래프 기반 - 유사도 임계값 이상 쌍을 엣지로 연결, Force/Radial 레이아웃 |
| 특징 | SVG 네트워크, 노드 수/임계값 조절, 부처별 색상 |
| 장점 | 관계 구조 직관적 파악, 허브 사업 식별 |
| 한계 | 대규모 네트워크 시 가독성 저하 |
6
유사/중복(인력양성)
서버 분석 (Python)
★ 정밀 분석
| 목적 | 인력양성(T04/T05) 사업 전용 중복성 정밀 분석 |
| 분석 단위 | 내역사업(sub_project) 레벨 |
| 알고리즘 | 4차원 가중 합산 + 게이트 필터: |
점수 = (F×0.35 + C×0.25 + D×0.10 + E×0.20) × B × 10 + text_bonus
F (35%): 타겟분야 유사도 (Overlap Coefficient)
C (25%): 수혜대상 유사도 (Jaccard)
D (10%): 수행기관 유사도 (Jaccard)
E (20%): 텍스트 유사도 (Dual TF-IDF)
B: 타입 게이트 (T04-T05 교차=0.8, 동일=1.0)
text_bonus: E≥0.8이면 +2.0점
Dual TF-IDF 구성:
E = 0.4 × E_domain(프로젝트명+목적+설명) + 0.6 × E_structure(교육형태+대상+방식+목표)
| 게이트 조건 | ① T04/T05/T98만 ② 타겟분야 중복 필수(F>0) ③ 최소 5.0점 |
| 특징 | 군집화(clique/chain), 허브 프로젝트 식별, 정책 권고 자동 생성 |
| 장점 | 인력양성 특화 가중치, 교육구조 키워드 분석, 임베딩 지원 |
| 한계 | 인력양성 외 사업 분석 불가 |
7
협업가능성
서버 분석 (Python)
★ 협업 발굴
| 목적 | 중복 해소가 아닌 협업 기회 발굴 - 공급↔수요 연계 분석 |
| 분석 단위 | 내역사업(sub_project) 레벨 |
| 알고리즘 | Value Chain 패턴 매칭 (6가지 유형): |
① 인력양성→산업체: T04/T05 → T02/T03/T06
② 기술/인프라 공유: T06/T07 → T02
③ R&D→실증→사업화: T01 → T02
④ 데이터 구축→활용: T07 → T01/T02
⑤ 정책·제도→사업화: T08 → T02/T03
⑥ 기반기술→도메인: D98/D99 → D01-D18
점수 = linkage_clarity(0-3) + domain_match(0-2) + synergy(0-3) + irreplaceability(0-2)
linkage_clarity: 연계 패턴 명확도
domain_match: 도메인 일치도 (동일=2, 교차=1)
synergy: 예산 규모 + 타입 시너지
irreplaceability: 분야 고유성 + 기관 특이성
| 특징 | Value Chain 체인, 허브 네트워크, 정책 권고 자동 생성 |
| 장점 | 공급-수요 역할 명확, 협업 시너지 정량화 |
| 한계 | 선형 모델로 다각형 협업 미탐지 |
8
하이브리드(이전)
서버 분석 (Python)
★ 종합 분석
| 목적 | 가장 종합적인 다차원 분석 - 12개 도메인 프로필별 맞춤 분석 |
| 분석 단위 | 내역사업(sub_project) 레벨 |
| 알고리즘 | 7차원 가중 합산 × 프로필별 가중치: |
점수 = Σ(차원별 유사도 × 프로필별 가중치) × type_gate × 10 + bonus
field
25%
beneficiary
8%
agency
7%
text
30%
budget_scale
10%
budget_trend
10%
sub_project
10%
총 7차원
12개 분석 프로필:
rnd
training
defense
infra
manufacturing
data_platform
medical_bio
testbed
education
digital_transform
energy_env
general
| 특징 | 예산 추세(3~5년), 세부사업 구조, 임베딩(LLM) 지원, 신규사업 보정 |
| 장점 | 가장 포괄적, 프로필별 맞춤 가중치 |
| 한계 | 복잡도 높음, 계산량 많음 |
알고리즘 비교 요약
| 탭 |
실행 환경 |
핵심 알고리즘 |
분석 차원 |
임계값 |
군집화 |
최적 용도 |
| 유사/중복 개요 | JS | 키워드 매칭 | 1개 | - | - | 전체 현황 파악 |
| 키워드 검색 | JS | 6종 선택 | 1개 | 사용자 지정 | - | 특정 키워드 검색 |
| 유사 사업 탐색기 | JS | Hybrid | 1개 | 30-100% | - | 실시간 탐색 |
| 자동 스캔 | JS | Hybrid+등급 | 1개 | 5등급 | - | 전수 조사 |
| 네트워크 | JS | 그래프 | 1개 | 10-90% | O | 구조 시각화 |
| 유사/중복(인력양성) | Python | Dual TF-IDF | 4개 | 5.0점 | O | 인력양성 중복 |
| 협업가능성 | Python | Value Chain | 4개 | 5.0점 | O | 협업 기회 발굴 |
| 하이브리드 | Python | 7차원 가중합 | 7개 | 4.5-5.5점 | O | 종합 유사성 분석 |
용도별 권장 탭
전체 현황 파악
→ 유사/중복 개요: 시각화 대시보드로 전체 중복 현황 개요
특정 키워드 검색
→ 키워드 유사성 검색: 다양한 알고리즘으로 검색어 기반 탐색
실시간 탐색
→ 유사 사업 탐색기: 임계값 조절하며 인터랙티브 탐색
전수 스캔 필요
→ 자동 스캔: 전체 사업 N×N 비교 + 5등급 분류
인력양성 중복 분석
→ 유사/중복(인력양성): 교육 특화 4차원 분석 + 군집화
부처간 협업 기회
→ 협업가능성: 공급-수요 연계 + Value Chain 분석
종합 정밀 분석
→ 하이브리드: 7차원 + 12개 프로필 + 예산 추세 분석
구조 시각화
→ 네트워크: 사업간 관계 구조 + 클러스터 시각화
임베딩(LLM) 활용
서버 분석(Python) 탭들은 gpt-oss:20b 모델을 통한 임베딩 유사도를 선택적으로 활용합니다.
- 유사/중복(인력양성): 0.5×임베딩 + 0.5×Dual TF-IDF
- 하이브리드: 0.6×임베딩 + 0.4×TF-IDF
임베딩 캐시가 존재하면 --llm 플래그 없이도 자동 로드됩니다.