260317 AI 금융자문·크롤링 법적 리서치

17 Mar 2026 Tags:

260317 AI 금융자문·크롤링 법적 리서치

작성 시점: 2026-03-17 12:39 (Asia/Seoul)
리서치 범위: LLM 정책, 한국 금융규제, 미국 SEC/로보어드바이저 규제 맥락, 뉴스/공시 데이터 크롤링 및 저작권/DB 권리
중요: 이 문서는 법률 자문이 아니라 리서치 메모입니다. 실제 출시 전에는 반드시 금융규제 + 저작권/데이터 라이선스 경험이 있는 한국 변호사 검토가 필요합니다.

한눈에 결론 👀

질문의 핵심을 아주 짧게 정리하면 이렇습니다.

Claude / 다른 LLM을 금융투자 목적에 쓰는 것 자체가 일률적으로 금지된 것은 아닙니다.
다만 개인별 포트폴리오 리밸런싱 추천은 그냥 일반 AI 기능이 아니라, 내용에 따라 투자자문업/유사투자자문업/일임업 규제와 맞닿습니다.
모델 사업자 정책도 대체로 금융 사용 자체 금지가 아니라, 고위험 금융결정에는 human-in-the-loop, 적절한 고지, 법규 준수를 요구하는 방향입니다.
뉴스/기사 전문을 무단 크롤링해서 DB화하는 문제는 훨씬 더 위험합니다. 특히 네이버 뉴스, AP, Reuters 쪽은 공식 정책과 약관상 매우 보수적으로 봐야 합니다.
재배포 안 하니까 괜찮다는 논리는 약합니다. 내부 DB 저장, 임베딩 생성, RAG 활용 자체가 복제 또는 DB 구축으로 평가될 수 있습니다.
이미 어떤 LLM이 학습했을 수 있다는 사실은 당신의 별도 수집/저장/상업적 활용을 정당화하지 않습니다.
따라서 현실적인 안전한 방향은:
- 공식 API/공식 공개데이터 중심
- 뉴스는 라이선스된 피드 또는 링크/메타데이터 수준
- 개인 맞춤 추천은 사람 검토 + 고지 + 로그 + 규제검토
- 자동매매/자동집행은 초기에는 하지 않기

결론적으로, 지금 구상은 불가능한 서비스는 아닙니다.
하지만 현재 표현 그대로 뉴스 감정분석 기반으로 사용자별 포트폴리오 리밸런싱 추천을 상업 서비스로 제공하면, 기술 이슈보다 먼저 투자자문 규제와 콘텐츠 라이선스가 핵심 리스크가 됩니다. ⚠️

1. LLM 정책상 금융투자 목적 사용은 금지인가? 🤖💼

1-1. Anthropic 기준: `전면 금지`는 아님

Anthropic 공식 Commercial Terms는 아예 고객이 자사 제품/서비스를 구동하는 데 Anthropic 서비스를 사용할 수 있다고 적고 있습니다. 즉, 사업자가 Claude API를 써서 최종 사용자용 제품을 만드는 것 자체는 금지 구조가 아닙니다.

다만 같은 약관에서 Anthropic은 다음을 분명히 둡니다.

출력이 해당 사용사례에 적절한지 고객이 평가해야 함
필요한 경우 human review를 넣어야 함
정확성/완전성/무오류를 보증하지 않음

즉, 써도 되지만 책임은 네가 진다는 구조에 가깝습니다.

또한 Anthropic Usage Policy는 High-Risk Use Cases에 대해 별도 안전장치를 요구합니다.
2025-09-15 효력의 Anthropic Usage Policy에서는 금융을 고위험 영역에 넣고, 아래 취지를 명시합니다.

투자 조언(investment advice) 등 금융 의사결정은 고위험 사용사례
사람/소비자에게 직접 영향을 주는 조언·추천·결정을 제공할 때는 qualified professional의 검토가 필요
최종 사용자에게 AI가 사용되었다는 사실을 고지해야 함

즉, Claude는 금융 분야 사용을 일괄 금지하지 않지만, 사람에게 직접 영향 주는 금융 추천/결정은 사람 개입과 고지가 필요한 고위험 영역으로 분류합니다.

1-2. 실무적 해석

이건 매우 중요합니다.

기업 내부 리서치 보조
공시/뉴스 요약
종목/펀드 설명 초안
시그널 생성 보조

이 정도는 비교적 안전한 영역입니다.

반면 아래로 갈수록 위험이 커집니다.

사용자 포트폴리오를 입력받고
위험성향, 보유자산, 투자기간, 세금 상황을 반영해
지금 VOO 10% 줄이고 TLT 8% 늘리세요
이번 주 내 리밸런싱 추천

이건 사실상 개인화된 투자판단 보조에 가깝습니다.

1-3. OpenAI 등 다른 사업자도 방향은 비슷함

OpenAI도 공식 정책에서 일부 금융활동을 high-stakes로 다루고 있으며, 과거 서비스 정책에서는 tailored financial advice를 사람 검토 없이 제공하는 행위를 명시적으로 제한한 바 있습니다.
현재 표현은 시점에 따라 바뀔 수 있지만, 큰 방향은 비슷합니다.

금융 의사결정은 민감한 영역
자동화만으로 최종 의사결정하게 만들지 말 것
적절한 검토·고지·책임 체계를 둘 것

따라서 질문에 대한 답은:

LLM으로 포트폴리오 리밸런싱 추천 서비스를 만드는 것이 정책상 무조건 금지인 것은 아니다.
다만 고위험 금융 의사결정으로 분류되어, 사람 검토·고지·규제 준수 없이 바로 서비스하면 문제될 가능성이 높다.

2. 법적으로는 어디까지 괜찮은가? 한국 기준이 핵심 🇰🇷

2-1. 핵심 구분: 일반 정보 제공 vs 투자자문

한국 자본시장과 금융투자업에 관한 법률 체계에서 중요한 것은 형식이 아니라 실질입니다.

겉으로는:

AI 분석 서비스
정보 제공 플랫폼
뉴스 감정 엔진

이라고 써도,

실질이:

특정 금융투자상품의 가치/투자판단에 관한 의견을 제공하고
사용자의 사정을 반영하며
그 결과로 구체적 매수/매도/비중조정을 권하면

투자자문으로 평가될 여지가 큽니다.

2-2. 대법원 판례 시사점

법원도 이 부분을 실질로 봅니다.

법제처 국가법령정보센터에 공개된 대법원 판례 요지는 대체로 다음 취지입니다.

개인별로 다른 설정값·입력값을 받아
그 사람에게 맞는 구체적 투자판단을 내리게 하는 구조라면
프로그램/자동화 형식이어도 투자자문업에 해당할 수 있음

반대로,

누구에게나 동일한 정보
일반적인 시장정보
개별성 없는 소프트웨어 판매

는 곧바로 투자자문업으로 보지 않을 여지도 있습니다.

이 판례가 주는 메시지는 매우 명확합니다.

사람 상담사가 없고 AI가 했으니 투자자문이 아니다는 방어는 잘 안 통합니다.

2-3. 유사투자자문업으로도 끝나지 않을 수 있음

금융당국 설명자료들을 보면, 유사투자자문업은 일반적 조언/정보 제공과 맞닿아 있지만,
1:1 맞춤 상담, 고객 자산상황 반영, 사실상 운용 또는 자문으로 가면 더 무거운 규제 문제로 넘어갑니다.

즉,

이번 주 시장 요약
이 ETF는 이런 특징
현재 위험선호 둔화 신호

는 정보제공에 가깝고,

당신의 현재 계좌 기준으로 주식 62%를 48%로 줄이고 채권 ETF를 14% 늘리라

는 자문 성격이 매우 강합니다.

2-4. 자동 집행까지 가면 더 위험

추천만이 아니라:

API 연동으로 주문 실행
일정 조건에서 자동 리밸런싱 체결
사용자 위임 아래 일괄 운용

까지 가면 일임업 또는 그에 준하는 규제 이슈가 커집니다.

이건 초기 스타트업이 약관 문구 몇 줄로 넘길 수 있는 영역이 아닙니다.

2-5. 그래서 어디까지가 현실적으로 가능하나

초기 단계에서 상대적으로 현실적인 구간은 다음입니다.

비교적 안전한 쪽

공시/뉴스/이벤트 기반 시장 해설
비개인화 모델 포트폴리오
교육용/리서치용 시뮬레이터
현재 포트폴리오의 리스크 변화 설명
리밸런싱 후보 제시 + 사람이 최종 판단

위험한 쪽

개별 사용자 상황을 반영한 구체적 매매/비중 추천
추천을 사실상 지시로 보이게 만드는 UI
수익률 약속, 우월성 암시
자동 주문/반자동 주문
파생상품, 레버리지 ETF, 옵션 오버레이를 개인화 추천

2-6. 중요한 포인트: 디스클레이머만으로 해결되지 않음

본 서비스는 투자조언이 아닙니다

이 문구를 붙였다고 실질이 바뀌지는 않습니다.

규제기관과 법원은 보통 아래를 봅니다.

실제 서비스 화면에서 무엇을 시켰는지
사용자별 맞춤 여부
포트폴리오/보유종목 입력을 받는지
결과가 구체적 주문 수준인지
사업자가 이를 수익모델로 삼는지

즉, 디스클레이머보다 제품 동작이 더 중요합니다.

3. 사례는 있는가? 있다. 다만 대부분 `규제 안에서` 한다 🏦

3-1. Robo-advisor는 이미 존재

미국 SEC는 오래전부터 로보어드바이저 관련 가이던스를 두고 있습니다.
즉, 자동화된 투자추천/포트폴리오 관리는 금지된 사업모델이 아니라, 규제된 사업모델입니다.

핵심은:

등록/인가
적합성
공시
충돌관리
알고리즘 설명
모니터링

입니다.

3-2. SEC도 AI 자체보다 `AI-washing`과 오남용을 본다

SEC는 2024-03-18 Delphia(USA)와 Global Predictions를 상대로, AI 사용 방식과 관련한 허위/과장 설명 문제로 제재를 발표했습니다.

이 사례가 말하는 건:

AI 쓴다고 홍보하는 것 자체가 문제는 아님
실제보다 과장하거나
내부 통제 없이 마케팅하면
바로 집행 대상이 될 수 있음

즉, 당신이 나중에 AI가 최적 리밸런싱 같은 표현을 쓰면, 그 자체가 세일즈 문구가 아니라 규제 리스크가 됩니다.

3-3. 내부 보조 도구 사례는 많다

금융권에서 LLM은 이미 많이 쓰고 있습니다.

내부 리서치
문서 요약
애널리스트/어드바이저 보조
공시/리스크 문서 탐색

하지만 중요한 점은 대개 다음과 같습니다.

advisor copilot 형태
사람 검토
내부 사용
외부 고객에게 자동 최종판단을 바로 내리게 하지 않음

즉, 지금 시장의 주류는 “완전자율 투자조언”이 아니라 “전문가 보조”입니다.

4. 당신의 서비스는 법적으로 어느 포지션에 서게 되는가? 🎯

질문의 서비스를 실질로 보면 대략 3단계가 있습니다.

단계 A. 정보/분석 서비스

뉴스 감정 점수
종목/섹터/ETF 별 점수
시장 리스크 레벨
공시/뉴스 요약

이 단계는 상대적으로 안전합니다.

단계 B. 모델 포트폴리오 제안

공격형 / 중립형 / 보수형 공통 모델
특정 룰에 따른 ETF 바스켓 제안
사용자 개인 계좌와 1:1로 연결되지 않은 추천

여기부터 조심해야 하지만, 아직은 비개인화 정보서비스로 설계할 여지가 있습니다.

단계 C. 개인별 리밸런싱 지시

현재 보유내역 입력
위험성향/기간/세금 고려
구체적인 비중조정 수치와 주문 방향 제시

여기는 사실상 가장 규제 민감한 구간입니다.

따라서 MVP라면 A -> B 순서가 맞고, C는 초기에 바로 가면 안 됩니다.

5. 뉴스/문서 크롤링은 법적으로 괜찮은가? 📚🕸️

짧게 답하면:

공시 API는 상대적으로 안전하지만,
뉴스 기사 전문 무단 크롤링 + DB화 + 상업적 RAG는 매우 위험합니다.

이건 소스별로 완전히 다릅니다.

6. 소스별 리스크 평가 🔍

6-1. OpenDART: 상대적으로 안전한 축 ✅

OpenDART는 아예 오픈API를 제공합니다.

이용약관상 확인되는 핵심은:

회원/인증키 기반 사용
허용량 제한 존재
공공데이터법 등 관계법령 준수
과도한 네트워크 접속/오남용 시 이용 제한 가능

즉, HTML 크롤링보다 OpenDART API 사용이 맞습니다.

실무 권고:

무조건 공식 OpenDART API 우선
API 응답 원문과 메타데이터 별도 보관
원문 출처 URL 및 접수번호 함께 저장
호출량 제한 준수

6-2. SEC EDGAR: 허용은 되지만 `Fair Access` 필수 ⚠️

SEC는 공식적으로 개발자 리소스와 EDGAR 데이터 접근 경로를 제공합니다.
다만 자동화 접근은 Fair Access 가이드라인을 따라야 합니다.

이번 리서치 중 단순한 접근만으로도 SEC에서 Request Rate Threshold Exceeded 페이지를 반환했습니다.
이 자체가 의미하는 바는 분명합니다.

자동 접근 자체는 가능
하지만 속도/패턴/정책 준수를 강하게 본다
공식 API, bulk data, developer 가이드를 따라야 한다

실무 권고:

EDGAR HTML 페이지 스크래핑보다 공식 데이터 경로 사용
user-agent 식별정보 명시
rate limit/backoff 구현
대량 수집은 bulk feed/API 활용

6-3. 네이버 뉴스 HTML 크롤링: 매우 위험 🚨

이 부분은 상당히 명확합니다.

robots.txt

2026-03-17 기준 news.naver.com/robots.txt는 사실상 전면 차단 성격입니다.

User-agent: *
Disallow: /

그리고 AI 관련 봇들에 대해 별도 금지 문구도 둡니다.

GPTBot
OAI-SearchBot
ClaudeBot
Claude-SearchBot
Google-Extended
PerplexityBot

게다가 주석으로 AI training and RAG purposes are strictly prohibited 취지까지 적고 있습니다.

네이버 약관/정책

네이버 서비스 약관은 사전 허락 없는 자동화 수단(봇, 스파이더, 스크래퍼 등)에 의한 가입/로그인/수집/검색 남용을 금지합니다.

또 검색결과 수집에 대한 정책에서는:

robots.txt를 설치한 사이트/문서는 읽어오지 않는 것이 국제 표준
robots.txt를 무시한 수집은 저작권/개인정보 문제를 초래할 수 있음
네이버 DB를 계속 수집하면 법적 절차를 포함해 책임을 묻겠다고 밝힙니다

즉,

네이버 뉴스 HTML을 긁어서 기사 전문 DB를 만드는 것은
정책상, 약관상, 분쟁 가능성 측면에서 모두 매우 불리합니다.

추가로 더 중요한 점

네이버 뉴스는 플랫폼일 뿐이고, 실제 기사 저작권은 언론사/통신사에도 걸쳐 있습니다.
따라서 네이버만의 문제가 아니라 기사 원권리자 문제도 동시에 생깁니다.

6-4. 네이버 Search API: HTML 크롤링보다 훨씬 낫다 👍

네이버는 뉴스 검색 API를 공식 제공하고 있습니다.

확인된 사항:

뉴스 검색 결과 API 제공
하루 호출 한도 25,000회
비로그인 오픈 API

즉, 네이버 관련이 꼭 필요하면 최소한:

뉴스 검색 결과 목록
제목
링크
일부 스니펫/메타데이터

정도는 공식 API를 우선 고려해야 합니다.

단, 여기서도 중요한 건:

검색 API 사용권이 곧 기사 전문을 내 DB에 장기 저장하고 상업적 RAG에 쓰는 권리를 뜻하지는 않습니다.

그래서 네이버 API는 발견(discovery) 용도로 쓰고, 전문 저장은 별도 라이선스 없이는 매우 보수적으로 접근해야 합니다.

6-5. AP 기사 크롤링/DB화: 매우 위험 🚨

AP Terms and Conditions는 꽤 직설적입니다.

콘텐츠는 AP 또는 라이선서의 독점 재산
개인적 비상업적 이용만 제한 허용
AP의 사전 서면 동의 없이 아카이브/보관 금지
자동 장치로 crawl/scrape/search/monitor 하거나 콘텐츠를 복사/수집하는 행위 금지

즉, 당신이 상업 서비스용으로 AP 기사 전문을 모아 DB를 만드는 것은,
재배포를 하지 않더라도 약관과 저작권 양쪽 모두에서 매우 방어가 어렵습니다.

6-6. Reuters / Thomson Reuters: 역시 매우 위험 🚨

Reuters robots.txt는 다수의 AI/크롤링 봇에 대해 Disallow: /를 명시하고 있습니다.

Thomson Reuters Terms of Use는:

사이트 콘텐츠는 Thomson Reuters 소유 또는 라이선스
prior written consent 없이 reproduction/transmission/distribution 불가
사이트를 commercial purpose로 exploit하지 말 것

즉, Reuters 기사 전문을 긁어서 DB화하고 내부 모델/RAG에 쓰는 것도 위험합니다.

7. `재배포는 안 하는데, 내부 DB/RAG는 괜찮지 않나?` ❓

이 질문이 진짜 핵심입니다.

답은:

재배포를 안 하면 위험이 조금 줄 수는 있지만, 합법이 되는 것은 아니다.

이유는 다음과 같습니다.

7-1. 내부 저장도 `복제`일 수 있다

기사 전문을 가져와서:

DB에 저장
벡터 임베딩 생성
검색 인덱스 생성
청크 분할 후 RAG

를 하면, 이미 여러 단계의 복제/처리가 발생합니다.

임베딩은 원문이 아니니까 괜찮다는 주장도 안전하지 않습니다.
임베딩을 만들기 위해 원문을 가져와 처리하는 시점부터 권리문제가 생길 수 있습니다.

7-2. 한국 저작권법은 DB 제작자 권리도 본다

한국 저작권법은 데이터베이스제작자의 권리를 인정합니다.
또한 권리 제한 규정이 있더라도, 교육/학술연구 목적 비영리 영역 중심으로 좁게 설계된 부분이 많습니다.

즉, 스타트업의 상업 서비스용 데이터 적재는 연구목적 예외로 쉽게 들어가기 어렵습니다.

7-3. 기사의 `사실`과 `표현`은 다르다

예를 들어:

A사가 유상증자를 발표했다
미 연준 의장이 금리동결을 시사했다

같은 사실 자체는 보호범위가 약할 수 있습니다.

하지만 아래는 권리 이슈가 남습니다.

기사 전문
제목 표현
요약 문장
문장 구조
사진/도표
기사 선별/배열/DB 구성

그래서 사실만 쓴다는 전략이면:

공식 공시/원문 문서에서 직접 구조화
기사 전문은 저장하지 않음
기사에서 추출한 독자적 feature만 남김

처럼 설계가 달라져야 합니다.

8. `이미 LLM들이 학습했잖아. 그럼 내가 명시적으로 쓰는 것도 괜찮지 않나?` 🤨

이 논리는 법적으로 약합니다.

8-1. 남이 학습했을 수 있다는 사실은 내 권리를 만들지 않는다

설령 어떤 모델 사업자가 과거에 특정 데이터를 학습했거나 라이선스 계약을 맺었더라도:

그것은 그 사업자와 권리자 사이 문제
또는 아직 소송 중인 쟁점

입니다.

그게 곧바로 당신도 수집하고 저장해도 된다는 뜻은 아닙니다.

8-2. 별도의 복제행위는 별도의 문제다

당신이:

네이버/AP/Reuters에서
전문을 긁어오고
DB화하고
검색/RAG에 넣고
상업 서비스에 쓰면

그건 당신의 별도 행위입니다.

모델 사업자가 과거에 무엇을 했는지와는 독립적으로 평가될 수 있습니다.

8-3. 미국에서도 AI 학습/복제는 이미 소송 대상

미국에서는 AI 학습과 데이터 복제를 둘러싼 소송이 계속 진행 중입니다.
특히 Thomson Reuters v. Ross Intelligence 사건은 AI/검색/학습 맥락에서의 복제와 fair use를 둘러싼 중요한 분쟁으로 널리 인용됩니다.

즉, 이 영역은 아직 안전지대가 아니라, 오히려 분쟁이 활발한 구역입니다.

따라서:

어차피 다들 학습했을 텐데
는 사업 판단 기준이 될 수 없습니다.

9. `그냥 LLM에만 물어서 나온 결과만 쓰면 안전한가?` 🧠

일부 위험은 줄어듭니다. 하지만 다른 위험이 남습니다.

줄어드는 것

당신이 직접 기사를 긁어 저장하는 위험
직접적인 무단 DB화 위험

남는 것

LLM 출력이 최신/정확/설명가능하지 않을 수 있음
여전히 개인화 투자조언이면 금융규제 문제는 남음
잘못된 추천에 대한 민원/분쟁/배상 리스크는 남음
원문 출처와 근거가 빈약해지므로 컴플라이언스가 더 어려워질 수 있음

즉,

뉴스를 저장하지 않고 LLM latent knowledge만 쓰면 저작권 리스크 일부는 줄 수 있다.
하지만 금융자문 리스크와 품질/설명가능성 리스크는 여전히 남는다.

그리고 실제 서비스 품질도 낮아질 가능성이 큽니다.

최신 공시 반영 약함
근거 링크 약함
hallucination 가능
감사가능성 낮음

실무적으로는 이 방식이 오히려 더 위험해질 수도 있습니다.

10. `누가 진실을 알 수 있겠는가?`에 대한 현실적인 답 🧾🔬

생각보다 많은 사람들이 알 수 있습니다.

법적 분쟁/규제 조사 시 확인 가능한 것

크롤러 코드 저장소
배치 스케줄러
access logs
CDN / WAF / proxy logs
DB 스냅샷
벡터DB 원문 청크
프롬프트 로그
RAG retrieval logs
기사 제목/본문의 동일성
임직원 메신저/문서
라이선스 계약 유무
인보이스/벤더 비용

즉, 우리는 안 했다는 말보다:

코드
데이터
로그
인프라 흔적

이 더 큰 증거가 됩니다.

그리고 뉴스사/플랫폼/규제기관은 생각보다 다음을 잘 봅니다.

대량 요청 패턴
robots 위반
콘텐츠의 구조적 동일성
워터마킹/트랩
사용량/검색량 이상치

따라서 이 영역은 걸리면 어쩌지보다
들켜도 방어 가능한 설계인가로 봐야 합니다.

정답은 결국 이것입니다.

진실은 대개 로그와 데이터 구조가 말해준다.

11. 지금 서비스에 가장 현실적인 권고안 🛠️

11-1. 데이터 정책

적극 권장 ✅

DART는 공식 API만 사용
SEC는 공식 개발자 경로/API/bulk만 사용
네이버는 Search API 수준의 메타데이터/링크 중심으로 사용
기사 전문은 licensed feed 없으면 저장하지 않기
자체 feature만 저장:
- 감정점수
- 이벤트 태그
- 종목/섹터 엔티티
- 시계열 feature
- 출처 URL
- 수집시각

피해야 할 것 ❌

네이버 뉴스 HTML 전문 장기보관
AP/Reuters 기사 전문 무단 저장
robots/약관 무시한 크롤링
paywall/접근통제 우회
기사 전문을 vector DB에 적재

11-2. 제품 정책

초기 버전 권장 ✅

시장 해설 + 시그널 대시보드
모델 포트폴리오 후보
리스크 변화 알림
리밸런싱 필요 가능성 정도의 소프트 표현
사용자에게 근거 출처 제공

초기 버전 비권장 ❌

개인별 구체적 매수/매도 수량 제안
주문 버튼 직결
AI가 최적 포트폴리오 보장
파생상품/레버리지 상품 직접 추천

11-3. 컴플라이언스/감사 설계

반드시 넣는 게 좋은 것들:

AI 사용 고지
human review queue
prompt / model version log
recommendation provenance log
source URL / timestamp 저장
사용자 suitability/위험성향 입력 분리
개인화 추천과 일반 정보 제공 UX 분리
금지상품/금지행위 policy engine

12. 내가 지금이라면 이렇게 출시 순서를 짠다 🚀

1단계

뉴스/공시 분석 플랫폼

DART/SEC 공식 데이터
네이버 뉴스 API 메타데이터
감정/이벤트/엔티티 feature
대시보드/탐색형 UX

2단계

비개인화 모델 포트폴리오

예: 보수형/중립형/공격형 모델
일반적 설명 제공
개인별 매매 지시는 하지 않음

3단계

advisor-in-the-loop

내부 전문가가 검토
최종 추천은 사람이 승인
사용자에게 AI 보조 사실 고지

4단계

규제/라이선스 검토 후에만

개인 맞춤 리밸런싱
자동 집행
파생 오버레이

13. 핵심 질문에 대한 직접 답변 ✅

Q1. Claude나 다른 LLM에서 금융투자 목적이라 엄격히 제한하나?

전면 금지는 아닙니다.
하지만 사람에게 직접 영향을 주는 금융 추천/결정은 고위험 사용으로 취급되어, 사람 검토와 고지, 법규 준수가 필요합니다.

Q2. 금융투자 목적으로 LLM을 어디까지 써도 되나?

대체로 아래까지는 상대적으로 안전합니다.

문서 요약
시그널 생성 보조
리서치 보조
비개인화 설명/분석

아래부터는 규제 리스크가 큽니다.

개인별 리밸런싱 제안
구체적 매수/매도 권고
자동 주문

Q3. 사례가 있는가?

있습니다.

로보어드바이저 전반
금융권 내부 advisor copilot
SEC robo-adviser guidance
SEC AI-washing 집행사례

즉, 불가능이 아니라 규제 안에서 해야 하는 영역입니다.

Q4. 뉴스/문서 무단 크롤링 후 DB화는 문제 없나?

문제될 수 있습니다.
특히 네이버 뉴스, AP, Reuters 기사 전문 DB화는 매우 보수적으로 봐야 합니다.

Q5. 재배포 안 하면 괜찮나?

아닙니다.
내부 저장, 임베딩, RAG도 권리 문제를 일으킬 수 있습니다.

Q6. LLM이 이미 학습했을 수 있는데, 그걸 명시적으로 이용하면 문제인가?

그럴 수 있습니다.
남의 학습 여부는 당신의 수집/저장 권한을 만들지 않습니다.

Q7. 그냥 LLM만 질의하고 그 결과만 쓰면 안전한가?

14. 최종 판단 🔚

당신이 지금 만들려는 것은 기술적으로는 충분히 가능하고, 시장에서도 유사한 축은 존재합니다.
하지만 법적 쟁점의 중심은 “LLM 사용” 자체가 아니라 아래 두 가지입니다.

그 출력이 개인별 투자자문/일임에 가까운가
그 출력을 만들기 위해 뉴스/문서를 어떤 권한으로 수집·저장했는가

그래서 MVP 전략은 이렇게 정리됩니다.

정보 서비스로 먼저 간다
공식 데이터 위주로 간다
기사 전문 DB는 피한다
개인 맞춤 매매 지시는 늦춘다
사람 검토 + 고지 + 감사로그를 넣는다

이 순서로 가면 살 수 있습니다.
지금 바로 무단 뉴스 크롤링 + 개인별 리밸런싱 추천으로 가면, 나중에 모델보다 법무가 먼저 막을 가능성이 큽니다. 🚧

15. 참고 URL 🔗

LLM 정책 / 약관

Anthropic Commercial Terms: https://www.anthropic.com/legal/commercial-terms
Anthropic Usage Policy: https://console.anthropic.com/legal/aup

한국 금융규제 / 판례 / 법령

자본시장과 금융투자업에 관한 법률: https://www.law.go.kr/%EB%B2%95%EB%A0%B9/%EC%9E%90%EB%B3%B8%EC%8B%9C%EC%9E%A5%EA%B3%BC%EA%B8%88%EC%9C%B5%ED%88%AC%EC%9E%90%EC%97%85%EC%97%90%EA%B4%80%ED%95%9C%EB%B2%95%EB%A5%A0
국가법령정보센터 판례 요지(대법원 2020도16420 관련 검색 결과): https://www.law.go.kr/

미국 SEC / 로보어드바이저 / 집행

SEC Robo-Advisers Guidance Update (2017-02): https://www.sec.gov/rules-regulations/staff-guidance/division-investment-management/imis-guidance-update/2017-02-robo-advisers
SEC charges against Delphia and Global Predictions (2024-03-18): https://www.sec.gov/newsroom/press-releases/2024-74
SEC Developer Resources: https://www.sec.gov/developer
Accessing EDGAR Data: https://www.sec.gov/search-filings/edgar-search-assistance/accessing-edgar-data

공시 / 오픈데이터

OpenDART 메인: https://opendart.fss.or.kr/
OpenDART 개발가이드: https://opendart.fss.or.kr/guide/main.do
OpenDART 이용약관: https://opendart.fss.or.kr/intro/terms.do

네이버

네이버 검색 뉴스 API 문서: https://developers.naver.com/docs/serviceapi/search/news/news.md
네이버 서비스 이용약관: https://www.naver.com/policy/service.html
네이버 검색결과 수집 정책: https://www.naver.com/policy/search_policy.html
네이버 robots.txt: https://www.naver.com/robots.txt
네이버 뉴스 robots.txt: https://news.naver.com/robots.txt

AP / Reuters / Thomson Reuters

AP Terms and Conditions: https://www.ap.org/terms-and-conditions/
AP robots.txt: https://www.ap.org/robots.txt
Reuters robots.txt: https://www.reuters.com/robots.txt
Thomson Reuters Terms of Use: https://www.thomsonreuters.com/en/terms-of-use

저작권 / DB 권리

16. 사용자 질문 원문 📌

주제 : 포트폴리오 이론, 펀드, ETF, 각종 포트폴리오성 파생상품

현재 뉴스감정분석을 기반으로 포트폴리오 리벨런싱 서비스를 기획 개발해 나가고 있음.
그러면서 드는 고민, 질문.

pydantic ai, claude api, naver news crawl, dart crawl, SEC crawl, ap/로이터 crawl 을 해 나갈 예정

그런데 이렇게 출력으로 포트폴리오 리벨런싱 추천을 하는 이런 액션은
claude 나 다른 llm 에서 금융투자 목적이라서 엄격하게 제한 하는 것은 아닌지?
금융투자 목적으로 llm을 사용하는것이 어디까지 되는지 궁금함.
사례가 있는지?

또한 각종 news나 문서들을 무단?으로 crawl을 하고 있는데
이것들은 법적 문제가 안될지
당연히 이 내용들을 재배포 하지는 않을것 
하지만 엄연히 pydantic ai tool 로서 db화된 문서들을 이용해서 처리하는 부분이 있고
엄밀히 말하면 이것들은 무단을 db를 이용하는 것이긴 함.
그렇지만 반대로 이미 존재하는 llm에는 이를 이미 학습한것 아닌가?
그것을 또 명시적으로 이용한다고 문제가 될까?
그냥 거짓으로 news 등 컨텐츠 학습하지 않고 순수히 llm 에만 질의해서 내온 결과들만 이용한다고 해도 서비스에 법적인 문제가 안될것 같은데 어떤가?
과연 누가 진실을 알수 있겠는가?

황현동 블로그 개발, 인생, 유우머

260317 AI 금융자문·크롤링 법적 리서치

260317 AI 금융자문·크롤링 법적 리서치

한눈에 결론 👀

1. LLM 정책상 금융투자 목적 사용은 금지인가? 🤖💼

1-1. Anthropic 기준: 전면 금지는 아님

1-2. 실무적 해석

1-3. OpenAI 등 다른 사업자도 방향은 비슷함

2. 법적으로는 어디까지 괜찮은가? 한국 기준이 핵심 🇰🇷

2-1. 핵심 구분: 일반 정보 제공 vs 투자자문

2-2. 대법원 판례 시사점

2-3. 유사투자자문업으로도 끝나지 않을 수 있음

2-4. 자동 집행까지 가면 더 위험

2-5. 그래서 어디까지가 현실적으로 가능하나

비교적 안전한 쪽

위험한 쪽

2-6. 중요한 포인트: 디스클레이머만으로 해결되지 않음

3. 사례는 있는가? 있다. 다만 대부분 규제 안에서 한다 🏦

3-1. Robo-advisor는 이미 존재

3-2. SEC도 AI 자체보다 AI-washing과 오남용을 본다

3-3. 내부 보조 도구 사례는 많다

4. 당신의 서비스는 법적으로 어느 포지션에 서게 되는가? 🎯

단계 A. 정보/분석 서비스

단계 B. 모델 포트폴리오 제안

단계 C. 개인별 리밸런싱 지시

5. 뉴스/문서 크롤링은 법적으로 괜찮은가? 📚🕸️

6. 소스별 리스크 평가 🔍

6-1. OpenDART: 상대적으로 안전한 축 ✅

6-2. SEC EDGAR: 허용은 되지만 Fair Access 필수 ⚠️

6-3. 네이버 뉴스 HTML 크롤링: 매우 위험 🚨

robots.txt

네이버 약관/정책

추가로 더 중요한 점

6-4. 네이버 Search API: HTML 크롤링보다 훨씬 낫다 👍

6-5. AP 기사 크롤링/DB화: 매우 위험 🚨

6-6. Reuters / Thomson Reuters: 역시 매우 위험 🚨

7. 재배포는 안 하는데, 내부 DB/RAG는 괜찮지 않나? ❓

7-1. 내부 저장도 복제일 수 있다

7-2. 한국 저작권법은 DB 제작자 권리도 본다

7-3. 기사의 사실과 표현은 다르다

8. 이미 LLM들이 학습했잖아. 그럼 내가 명시적으로 쓰는 것도 괜찮지 않나? 🤨

8-1. 남이 학습했을 수 있다는 사실은 내 권리를 만들지 않는다

8-2. 별도의 복제행위는 별도의 문제다

8-3. 미국에서도 AI 학습/복제는 이미 소송 대상

9. 그냥 LLM에만 물어서 나온 결과만 쓰면 안전한가? 🧠

줄어드는 것

남는 것

10. 누가 진실을 알 수 있겠는가?에 대한 현실적인 답 🧾🔬

법적 분쟁/규제 조사 시 확인 가능한 것

11. 지금 서비스에 가장 현실적인 권고안 🛠️

11-1. 데이터 정책

적극 권장 ✅

피해야 할 것 ❌

11-2. 제품 정책

초기 버전 권장 ✅

초기 버전 비권장 ❌

11-3. 컴플라이언스/감사 설계

12. 내가 지금이라면 이렇게 출시 순서를 짠다 🚀

1단계

2단계

3단계

4단계

13. 핵심 질문에 대한 직접 답변 ✅

Q1. Claude나 다른 LLM에서 금융투자 목적이라 엄격히 제한하나?

Q2. 금융투자 목적으로 LLM을 어디까지 써도 되나?

Q3. 사례가 있는가?

Q4. 뉴스/문서 무단 크롤링 후 DB화는 문제 없나?

Q5. 재배포 안 하면 괜찮나?

Q6. LLM이 이미 학습했을 수 있는데, 그걸 명시적으로 이용하면 문제인가?

Q7. 그냥 LLM만 질의하고 그 결과만 쓰면 안전한가?

14. 최종 판단 🔚

15. 참고 URL 🔗

LLM 정책 / 약관

한국 금융규제 / 판례 / 법령

미국 SEC / 로보어드바이저 / 집행

공시 / 오픈데이터

네이버

AP / Reuters / Thomson Reuters

저작권 / DB 권리

16. 사용자 질문 원문 📌

1-1. Anthropic 기준: `전면 금지`는 아님

3. 사례는 있는가? 있다. 다만 대부분 `규제 안에서` 한다 🏦

3-2. SEC도 AI 자체보다 `AI-washing`과 오남용을 본다

6-2. SEC EDGAR: 허용은 되지만 `Fair Access` 필수 ⚠️

7. `재배포는 안 하는데, 내부 DB/RAG는 괜찮지 않나?` ❓

7-1. 내부 저장도 `복제`일 수 있다

7-3. 기사의 `사실`과 `표현`은 다르다

8. `이미 LLM들이 학습했잖아. 그럼 내가 명시적으로 쓰는 것도 괜찮지 않나?` 🤨

9. `그냥 LLM에만 물어서 나온 결과만 쓰면 안전한가?` 🧠

10. `누가 진실을 알 수 있겠는가?`에 대한 현실적인 답 🧾🔬