2026 AI 재정사업 분석 플랫폼

안내 이 페이지는 국내 예산 내역 분석을 통해 AI 관련 예산 및 중복 사업 등을 알아보기 위해 개인이 만든 분석용 페이지일 뿐 공식 페이지가 아닙니다. 분석 결과는 공개된 종합예산 PDF 문서를 기초로 한 내용이라 hallucination이 있을 수 있습니다.

부처별 예산 비중 (상위 10)

사업 유형 분포 (R&D / 정보화 / 일반)

R&D 예산 차이 안내 (공식 9.9조 vs 본 시스템 10.1조)

공식 집계 "9.9조"와 본 시스템의 "10.1조" 사이 약 1,500~2,000억원 차이는 다음 원인들이 복합적으로 작용한 결과입니다.

분류 기준 차이: 본 시스템은 사업명에 (R&D) 접미사가 있으면 해당 사업의 전체 예산을 R&D로 잡습니다. 그러나 공식 집계에서는 하나의 세부사업 내에서도 R&D 목적 경비만 분리하여 집계할 수 있습니다.
(R&D,정보화) 중복 사업 2건 (1,846억원): SW컴퓨팅산업원천기술개발과 정보보호핵심원천기술개발은 R&D와 정보화 양쪽 성격을 가지나, 본 시스템에서는 전액 R&D로 계상합니다. 공식 집계에서는 일부가 정보화로 분리될 수 있습니다.
예산 기준 시점: 본 데이터의 2025 기준이 본예산(19.08조) vs 추경(21.39조)으로 나뉘며, 메타데이터에는 21.71조로 별도 기록되어 있어 기준 시점에 따라 증감액 산정이 달라집니다.

회계유형별 예산 구성

예산 증가 Top 10

예산 감소 Top 10

예산 증감률 분포

신규 vs 계속 사업 분포

예산 규모별 사업 분포

예산 요구액 vs 편성액 비교

AI 분야별 예산 버블차트

연도별 예산 변화 워터폴 (부처별 증감 기여)

부처별 사업 포트폴리오 (R&D / 정보화 / 일반)

부처별 신규사업 투자 현황

AI 도메인 × 부처 히트맵

내역사업 예산 규모 분포

사업 내 내역사업 집중도 TOP 20

부처별 내역사업 현황

이상치 사업 (증감률 ±50% 이상)

증감률 이상치 분포

예산 집중도 (HHI 분석)

분야별 예산 집중도

사업 규모 분포 분석

낭비 리스크 분석

글로벌 AI 예산 벤치마크

데이터 출처 및 참고사항

참고용 추정치이며 각국 공식 통계와 차이가 있을 수 있습니다. (출처: OECD AI Policy Observatory, Stanford AI Index 2024 참고)

부처별 예산 규모

사업 수 vs 예산 규모

부처별 예산 증감률

AI 분야별 예산 트리맵

분야-부처 교차 분석

부처간 중복 예산 히트맵

통합 우선순위 스코어카드

중복 도메인 버블차트

예산 절감 시뮬레이터

부처별 중복 포트폴리오

중복 유형 분류 대시보드

법적 근거 기반 중복 탐지 동일 법적 근거를 공유하는 사업 그룹 (클릭하여 사업 목록 확인)

중복 그룹 정렬:

유사성 분석 도움말

분석 개요

이 페이지는 2026년 AI 재정사업 533개(41개 부처, 약 27.1조원)의 유사성·중복성을 다양한 알고리즘으로 분석합니다. 각 탭은 서로 다른 목적과 알고리즘을 사용하며, 분석 관점에 따라 적합한 탭을 선택하여 활용할 수 있습니다.

8개

분석 탭

3개

서버 분석 (Python)

5개

브라우저 분석 (JS)

유사도 알고리즘

탭별 분석 방법

유사/중복 개요

브라우저 분석

목적	전체 중복 현황 대시보드, 시각화 중심 개요 파악
알고리즘	키워드 기반 그룹핑 - 사전 정의된 중복 키워드(AI, 데이터, 로봇 등) 매칭
특징	부처간 히트맵, 버블차트, 레이더, 법적 근거 중복 탐지, 예산 절감 시뮬레이터
장점	직관적 시각화, 빠른 전체 현황 파악
한계	의미적 유사성 미탐지, 사전 정의 키워드 의존

키워드 유사성 검색

브라우저 분석

목적	사용자 지정 키워드로 유사 사업 검색
알고리즘	6가지 선택 가능:

Jaccard = |A∩B| / |A∪B| (집합 기반)

Cosine = (A·B) / (‖A‖×‖B‖) (벡터 각도)

Dice = 2×|A∩B| / (|A|+|B|) (작은 집합 유리)

Overlap = |A∩B| / min(|A|,|B|) (부분집합 탐지)

TF-IDF = Σ(tf×idf) cosine (의미적 유사성)

Hybrid = 0.5×Jaccard + 0.5×Cosine (기본값)

특징	AND/OR/NOT/구문 검색, 내역사업 레벨 검색 지원
장점	다양한 알고리즘 비교 가능, 사용자 주도 탐색
한계	키워드를 알아야 함, 전체 스캔 아님

유사 사업 탐색기

브라우저 분석

목적	실시간 인터랙티브 유사 사업 쌍 탐색
알고리즘	Hybrid = 0.5×Jaccard + 0.5×Cosine (선택적 TF-IDF)
특징	유사도 임계값 슬라이더(30~100%), TF-IDF 토글, 실시간 필터링
장점	인터랙티브 탐색, 민감도 즉시 조절
한계	브라우저 내 계산으로 대용량 시 느림

자동 스캔

브라우저 분석

목적	전체 사업 전수 스캔 + 5등급 자동 분류
알고리즘	Hybrid + 등급 분류:

1등급: 90%+ (완전중복) 2등급: 75-90% (고유사) 3등급: 50-75% (부분중복) 4등급: 30-50% (약유사) 5등급: 30%- (비유사)

특징	부처/등급 필터, 교차부처 매트릭스 시각화
장점	전수 조사, 등급별 우선순위 명확
한계	스캔 시간 소요(N² 복잡도), 브라우저 메모리 부담

네트워크

브라우저 분석

목적	사업간 관계 구조 시각화, 클러스터 탐지
알고리즘	그래프 기반 - 유사도 임계값 이상 쌍을 엣지로 연결, Force/Radial 레이아웃
특징	SVG 네트워크, 노드 수/임계값 조절, 부처별 색상
장점	관계 구조 직관적 파악, 허브 사업 식별
한계	대규모 네트워크 시 가독성 저하

유사/중복(인력양성)

서버 분석 (Python) ★ 정밀 분석

목적	인력양성(T04/T05) 사업 전용 중복성 정밀 분석
분석 단위	내역사업(sub_project) 레벨
알고리즘	4차원 가중 합산 + 게이트 필터:

                점수 = (F×0.35 + C×0.25 + D×0.10 + E×0.20) × B × 10 + text_bonus
              

F (35%): 타겟분야 유사도 (Overlap Coefficient)

C (25%): 수혜대상 유사도 (Jaccard)

D (10%): 수행기관 유사도 (Jaccard)

E (20%): 텍스트 유사도 (Dual TF-IDF)

B: 타입 게이트 (T04-T05 교차=0.8, 동일=1.0)

text_bonus: E≥0.8이면 +2.0점

Dual TF-IDF 구성:

E = 0.4 × E_domain(프로젝트명+목적+설명) + 0.6 × E_structure(교육형태+대상+방식+목표)

게이트 조건	① T04/T05/T98만 ② 타겟분야 중복 필수(F>0) ③ 최소 5.0점
특징	군집화(clique/chain), 허브 프로젝트 식별, 정책 권고 자동 생성
장점	인력양성 특화 가중치, 교육구조 키워드 분석, 임베딩 지원
한계	인력양성 외 사업 분석 불가

협업가능성

서버 분석 (Python) ★ 협업 발굴

목적	중복 해소가 아닌 협업 기회 발굴 - 공급↔수요 연계 분석
분석 단위	내역사업(sub_project) 레벨
알고리즘	Value Chain 패턴 매칭 (6가지 유형):

① 인력양성→산업체: T04/T05 → T02/T03/T06

② 기술/인프라 공유: T06/T07 → T02

③ R&D→실증→사업화: T01 → T02

④ 데이터 구축→활용: T07 → T01/T02

⑤ 정책·제도→사업화: T08 → T02/T03

⑥ 기반기술→도메인: D98/D99 → D01-D18

                점수 = linkage_clarity(0-3) + domain_match(0-2) + synergy(0-3) + irreplaceability(0-2)
              

linkage_clarity: 연계 패턴 명확도

domain_match: 도메인 일치도 (동일=2, 교차=1)

synergy: 예산 규모 + 타입 시너지

irreplaceability: 분야 고유성 + 기관 특이성

특징	Value Chain 체인, 허브 네트워크, 정책 권고 자동 생성
장점	공급-수요 역할 명확, 협업 시너지 정량화
한계	선형 모델로 다각형 협업 미탐지

하이브리드(이전)

서버 분석 (Python) ★ 종합 분석

목적	가장 종합적인 다차원 분석 - 12개 도메인 프로필별 맞춤 분석
분석 단위	내역사업(sub_project) 레벨
알고리즘	7차원 가중 합산 × 프로필별 가중치:

                점수 = Σ(차원별 유사도 × 프로필별 가중치) × type_gate × 10 + bonus
              

field
25%

beneficiary
8%

agency
7%

text
30%

budget_scale
10%

budget_trend
10%

sub_project
10%

총 7차원

12개 분석 프로필:

rnd training defense infra manufacturing data_platform medical_bio testbed education digital_transform energy_env general

특징	예산 추세(3~5년), 세부사업 구조, 임베딩(LLM) 지원, 신규사업 보정
장점	가장 포괄적, 프로필별 맞춤 가중치
한계	복잡도 높음, 계산량 많음

알고리즘 비교 요약

탭	실행 환경	핵심 알고리즘	분석 차원	임계값	군집화	최적 용도
유사/중복 개요	JS	키워드 매칭	1개	-	-	전체 현황 파악
키워드 검색	JS	6종 선택	1개	사용자 지정	-	특정 키워드 검색
유사 사업 탐색기	JS	Hybrid	1개	30-100%	-	실시간 탐색
자동 스캔	JS	Hybrid+등급	1개	5등급	-	전수 조사
네트워크	JS	그래프	1개	10-90%	O	구조 시각화
유사/중복(인력양성)	Python	Dual TF-IDF	4개	5.0점	O	인력양성 중복
협업가능성	Python	Value Chain	4개	5.0점	O	협업 기회 발굴
하이브리드	Python	7차원 가중합	7개	4.5-5.5점	O	종합 유사성 분석

용도별 권장 탭

전체 현황 파악

→ 유사/중복 개요: 시각화 대시보드로 전체 중복 현황 개요

특정 키워드 검색

→ 키워드 유사성 검색: 다양한 알고리즘으로 검색어 기반 탐색

실시간 탐색

→ 유사 사업 탐색기: 임계값 조절하며 인터랙티브 탐색

전수 스캔 필요

→ 자동 스캔: 전체 사업 N×N 비교 + 5등급 분류

인력양성 중복 분석

→ 유사/중복(인력양성): 교육 특화 4차원 분석 + 군집화

부처간 협업 기회

→ 협업가능성: 공급-수요 연계 + Value Chain 분석

종합 정밀 분석

→ 하이브리드: 7차원 + 12개 프로필 + 예산 추세 분석

구조 시각화

→ 네트워크: 사업간 관계 구조 + 클러스터 시각화

임베딩(LLM) 활용

서버 분석(Python) 탭들은 gpt-oss:20b 모델을 통한 임베딩 유사도를 선택적으로 활용합니다.

유사/중복(인력양성): 0.5×임베딩 + 0.5×Dual TF-IDF
하이브리드: 0.6×임베딩 + 0.4×TF-IDF

임베딩 캐시가 존재하면 --llm 플래그 없이도 자동 로드됩니다.

사업명만 0원 사업 제외 예산불일치만

2026 AI 재정사업 분석 플랫폼

유사 클러스터 개

협업 체인 개

협업 허브 개

분석 개요

탭별 분석 방법

유사/중복 개요

키워드 유사성 검색

유사 사업 탐색기

자동 스캔

네트워크

유사/중복(인력양성)

협업가능성

하이브리드(이전)

알고리즘 비교 요약

용도별 권장 탭

임베딩(LLM) 활용

유사 클러스터 개

협업 체인 개

협업 허브 개

분석 개요

탭별 분석 방법

유사/중복 개요

키워드 유사성 검색

유사 사업 탐색기

자동 스캔

네트워크

유사/중복(인력양성)

협업가능성

하이브리드(이전)

알고리즘 비교 요약

용도별 권장 탭

임베딩(LLM) 활용

보도자료용 통계

📝 메모 관리