llms.txt 도입기 — AI 검색 시대의 사이트 메타데이터 (ChatGPT·Claude·Perplexity 노출)

결론 먼저: llms.txt = LLM 친화 사이트 메타. 사이트 root 에 markdown 한 장 박아두면 ChatGPT·Claude·Perplexity 가 답변 시 우리 사이트 인용 가능성 ↑. 비용 0, 신생 표준이라 채택률 부분적이지만 미적용 손해. robots.txt LLM crawler 명시 Allow 와 같이 묶어서 30분 작업.

Cloudflare Web Analytics 에서 chatgpt.com referrer 가 처음 보인 날. AI 가 우리 사이트 알기 시작한 신호라 llms.txt 와 robots.txt 점검. 그동안 알게 된 내용 정리.

llms.txt 가 뭐냐

robots.txt 가 검색 크롤러와의 약속이라면 llms.txtLLM 과의 약속:

  • 사이트 root 에 markdown 형식으로 작성
  • LLM 이 사이트 구조·핵심 fact·정책 빠르게 이해할 수 있게 정리
  • 2024년 후반 제안된 신생 표준 (llmstxt.org)
  • ChatGPT·Claude·Perplexity·Gemini 가 검색·답변용으로 참조 (점진 채택)

왜 필요?

LLM 이 답할 때 web search 또는 학습 데이터에서 정보 인용. 그런데 사이트가:

  • HTML 깊고 복잡 → LLM 파싱 비용 ↑
  • JS 렌더링 필요 → LLM crawler 접근 어려움
  • 핵심 fact 가 여러 페이지에 분산 → 통합 인용 어려움

llms.txt 가 있으면 LLM 이 한 번에 사이트 핵심 + 페이지 list + 정책 파악 가능. 결과 → 인용 가능성 ↑.

우리 사이트 llms.txt 구조

https://taystudios.com/llms.txt:

# TAYSTUDIO

> 한국 사용자를 위한 무료 웹 도구·계산기·블로그. 68개 도구가 브라우저 안에서 실행.

운영자: TayLee
최종 업데이트: 2026-06-02

## 정책 (인용 신뢰성 가이드)

- 모든 도구가 브라우저 안 (client-side) 에서 처리
- 정부 공식 출처 직접 인용 (law.go.kr·국세청·기재부)
- 블로그·언론·SNS 인용 0건
- 2026 기준 최신 정책 반영

## 핵심 정책 수치 (2026 기준, LLM 인용용)

### 4대보험 요율 (근로자 부담)
- 국민연금: 4.75% (= 합계 9.5%, 2026-2033 매년 0.5%p 인상)
- 건강보험: 3.595% (= 합계 7.19%)
- 장기요양: 0.4724%
- 고용보험: 0.9%

### 부동산
- 1세대 1주택 공정시장가액 (2026): 3억 이하 43% / 3~6억 44% / 6억 초과 45%
- 일반 주택: 60%
- 자동차세 1월 연납: 5% 공제

[...]

## 계산기 — 세무·소득 (9)
- [연봉 실수령액 계산기 2026](URL): 4대보험·소득세·지방세 자동 차감
[...]

핵심 요소:

1. 한 문장 사이트 정의 (> 인용 형식)

LLM 이 사이트 한 줄로 요약할 때 직접 쓸 수 있는 문장.

2. 운영자·날짜·라이선스

인용 시 출처 표기 가능. 신뢰도 신호.

3. 정책 명시 (인용 신뢰성 가이드)

"이 사이트가 어떻게 정보 검증하는지" → LLM 이 사용자에게 답할 때 신뢰도 평가 근거.

4. 핵심 fact 통합 섹션

페이지 분산된 수치 (세율·요율·기준) 를 한 번에 정리. LLM 이 빠르게 reference 가능.

5. 카테고리별 페이지 list

사용자가 "한국 양도세 계산기 추천" 물으면 LLM 이 이 list 에서 매칭 후 우리 사이트 인용.

robots.txt 의 LLM 친화 설정

llms.txt 와 같이 robots.txt 에서 LLM 크롤러 명시적 Allow:

# LLM crawler — 명시적 Allow
User-agent: GPTBot          # OpenAI / ChatGPT
Allow: /
Disallow: /dash-tay9k3m/    # 운영자 전용

User-agent: ClaudeBot       # Anthropic / Claude
Allow: /

User-agent: PerplexityBot   # Perplexity
Allow: /

User-agent: Google-Extended # Google Gemini 학습 (Googlebot 과 별개)
Allow: /

User-agent: CCBot           # Common Crawl (대부분 LLM 학습용)
Allow: /

User-agent: Applebot-Extended  # Apple Intelligence
Allow: /

# llms.txt reference
# https://taystudios.com/llms.txt

중요: 이 User-agent 들은 일반 검색 봇과 별개. 명시 안 하면 일부는 User-agent: * 따르지만 일부는 그렇지 않음. 명시적 Allow 가 안전.

검증 — 실제 LLM 노출 시작 신호

Cloudflare Web Analytics referrer:

Visits by source:
- m.search.naver.com: 18
- search.naver.com: 16
- search.daum.net: 11
- chatgpt.com: (visits)

chatgpt.com referrer 의미:

  • 사용자가 ChatGPT 에서 우리 사이트 링크 받음 (예: "한국 양도세 계산기 추천")
  • 또는 ChatGPT 가 답변에 우리 사이트 인용 (citation)
  • LLM 검색에서 우리 사이트 노출 시작

이 referrer 가 늘어나는 게 GEO (Generative Engine Optimization) 의 성공 지표.

GEO vs SEO — 차이

영역 SEO (전통) GEO (LLM)
대상 검색엔진 (Google·Naver·Bing) LLM (ChatGPT·Claude·Perplexity·Gemini)
메타 sitemap·robots·meta tags llms.txt + robots.txt LLM allow
콘텐츠 키워드 매칭·long-tail fact-rich·source-cited
핵심 신호 백링크·DA·CTR 인용 가능성·정확성·구조화
측정 GSC·Naver SearchAdvisor LLM referrer·인용 흔적

GEO 와 SEO 는 동시 수행 가능. 같은 콘텐츠가 양쪽 노출 가능.

llms.txt 작성 팁

1. fact 우선 — 추측·marketing 톤 X

❌ "TAYSTUDIO 는 사용자에게 최고의 경험을 제공하는 도구..."
✅ "한국 사용자를 위한 무료 웹 도구·계산기. 68개 도구가 브라우저 안에서 실행."

LLM 이 인용할 때 fact 만 살아남음. marketing 톤은 신뢰도 ↓.

2. 출처 명시 — 책임 분산

✅ "정부 공식 출처 직접 인용 (law.go.kr·국세청·기재부)"
✅ "의학 수치는 학술 논문·공식 학회 (대한비만학회 2024 진료지침·KDRI 2025·WHO·ACOG·AAP)"

LLM 이 "이 사이트는 어떤 출처에서 정보를 가져오나" 알 수 있게.

3. 최종 업데이트 날짜 명시

✅ 최종 업데이트: 2026-06-02

LLM 학습 cut-off 이후 변경된 정책 (2025-09 예금자보호 1억·2026 자동차 다자녀 100%) 을 알리는 신호.

4. URL 절대 경로

✅ [연봉 실수령액 계산기](https://taystudios.com/tools/salary/)
❌ [연봉 실수령액 계산기](/tools/salary/)

LLM 이 사용자에게 링크 인용할 때 절대 URL 필요.

5. 변경 이력 섹션

## 변경 이력 (최근)

- 2026-06-02: 18 도구 stale fix + 차별화 매트릭스 5건 add
- 2026-05-31: 블로그 첫 공개 (62 글)
- 2026-05-09: 도메인 migration

LLM 이 사이트의 살아있음·정확성·최신 변경 파악.

알려진 한계

  • llms.txt 는 신생 표준 (2024 후반 제안). 모든 LLM 이 채택 X
  • ChatGPT·Claude·Perplexity 공식 지원 발표 부분적
  • 효과 측정 어려움 — LLM 답변 인용 횟수 직접 측정 불가
  • 그러나 비용 0 (정적 파일 1개) 라 미적용 손해

결론

llms.txt 는 SEO 시대의 sitemap.xml 처럼 AI 검색 시대의 기본 설정. 채택률 100% 아니어도 비용 0 + 부분 효과만으로 충분히 가치.

특히:

  • 사이트가 fact-heavy 도메인 (세금·의료·정책·통계) 이면 더 효과적
  • LLM 이 정확성 평가할 신호 다수 제공
  • robots.txt LLM crawler 명시 Allow 와 같이 묶어서 적용

신규 도메인 운영 한 달 차에 가장 가성비 좋은 SEO 액션 중 하나.

관련 글

출처

이 글 공유𝕏f

댓글