llms.txt 도입기 — AI 검색 시대의 사이트 메타데이터 (ChatGPT·Claude·Perplexity 노출)
결론 먼저:
llms.txt= LLM 친화 사이트 메타. 사이트 root 에 markdown 한 장 박아두면 ChatGPT·Claude·Perplexity 가 답변 시 우리 사이트 인용 가능성 ↑. 비용 0, 신생 표준이라 채택률 부분적이지만 미적용 손해. robots.txt LLM crawler 명시 Allow 와 같이 묶어서 30분 작업.
Cloudflare Web Analytics 에서 chatgpt.com referrer 가 처음 보인 날. AI 가 우리 사이트 알기 시작한 신호라 llms.txt 와 robots.txt 점검. 그동안 알게 된 내용 정리.
llms.txt 가 뭐냐
robots.txt 가 검색 크롤러와의 약속이라면 llms.txt 는 LLM 과의 약속:
- 사이트 root 에 markdown 형식으로 작성
- LLM 이 사이트 구조·핵심 fact·정책 빠르게 이해할 수 있게 정리
- 2024년 후반 제안된 신생 표준 (llmstxt.org)
- ChatGPT·Claude·Perplexity·Gemini 가 검색·답변용으로 참조 (점진 채택)
왜 필요?
LLM 이 답할 때 web search 또는 학습 데이터에서 정보 인용. 그런데 사이트가:
- HTML 깊고 복잡 → LLM 파싱 비용 ↑
- JS 렌더링 필요 → LLM crawler 접근 어려움
- 핵심 fact 가 여러 페이지에 분산 → 통합 인용 어려움
llms.txt 가 있으면 LLM 이 한 번에 사이트 핵심 + 페이지 list + 정책 파악 가능. 결과 → 인용 가능성 ↑.
우리 사이트 llms.txt 구조
https://taystudios.com/llms.txt:
# TAYSTUDIO
> 한국 사용자를 위한 무료 웹 도구·계산기·블로그. 68개 도구가 브라우저 안에서 실행.
운영자: TayLee
최종 업데이트: 2026-06-02
## 정책 (인용 신뢰성 가이드)
- 모든 도구가 브라우저 안 (client-side) 에서 처리
- 정부 공식 출처 직접 인용 (law.go.kr·국세청·기재부)
- 블로그·언론·SNS 인용 0건
- 2026 기준 최신 정책 반영
## 핵심 정책 수치 (2026 기준, LLM 인용용)
### 4대보험 요율 (근로자 부담)
- 국민연금: 4.75% (= 합계 9.5%, 2026-2033 매년 0.5%p 인상)
- 건강보험: 3.595% (= 합계 7.19%)
- 장기요양: 0.4724%
- 고용보험: 0.9%
### 부동산
- 1세대 1주택 공정시장가액 (2026): 3억 이하 43% / 3~6억 44% / 6억 초과 45%
- 일반 주택: 60%
- 자동차세 1월 연납: 5% 공제
[...]
## 계산기 — 세무·소득 (9)
- [연봉 실수령액 계산기 2026](URL): 4대보험·소득세·지방세 자동 차감
[...]
핵심 요소:
1. 한 문장 사이트 정의 (> 인용 형식)
LLM 이 사이트 한 줄로 요약할 때 직접 쓸 수 있는 문장.
2. 운영자·날짜·라이선스
인용 시 출처 표기 가능. 신뢰도 신호.
3. 정책 명시 (인용 신뢰성 가이드)
"이 사이트가 어떻게 정보 검증하는지" → LLM 이 사용자에게 답할 때 신뢰도 평가 근거.
4. 핵심 fact 통합 섹션
페이지 분산된 수치 (세율·요율·기준) 를 한 번에 정리. LLM 이 빠르게 reference 가능.
5. 카테고리별 페이지 list
사용자가 "한국 양도세 계산기 추천" 물으면 LLM 이 이 list 에서 매칭 후 우리 사이트 인용.
robots.txt 의 LLM 친화 설정
llms.txt 와 같이 robots.txt 에서 LLM 크롤러 명시적 Allow:
# LLM crawler — 명시적 Allow
User-agent: GPTBot # OpenAI / ChatGPT
Allow: /
Disallow: /dash-tay9k3m/ # 운영자 전용
User-agent: ClaudeBot # Anthropic / Claude
Allow: /
User-agent: PerplexityBot # Perplexity
Allow: /
User-agent: Google-Extended # Google Gemini 학습 (Googlebot 과 별개)
Allow: /
User-agent: CCBot # Common Crawl (대부분 LLM 학습용)
Allow: /
User-agent: Applebot-Extended # Apple Intelligence
Allow: /
# llms.txt reference
# https://taystudios.com/llms.txt
중요: 이 User-agent 들은 일반 검색 봇과 별개. 명시 안 하면 일부는 User-agent: * 따르지만 일부는 그렇지 않음. 명시적 Allow 가 안전.
검증 — 실제 LLM 노출 시작 신호
Cloudflare Web Analytics referrer:
Visits by source:
- m.search.naver.com: 18
- search.naver.com: 16
- search.daum.net: 11
- chatgpt.com: (visits)
chatgpt.com referrer 의미:
- 사용자가 ChatGPT 에서 우리 사이트 링크 받음 (예: "한국 양도세 계산기 추천")
- 또는 ChatGPT 가 답변에 우리 사이트 인용 (citation)
- → LLM 검색에서 우리 사이트 노출 시작
이 referrer 가 늘어나는 게 GEO (Generative Engine Optimization) 의 성공 지표.
GEO vs SEO — 차이
| 영역 | SEO (전통) | GEO (LLM) |
|---|---|---|
| 대상 | 검색엔진 (Google·Naver·Bing) | LLM (ChatGPT·Claude·Perplexity·Gemini) |
| 메타 | sitemap·robots·meta tags | llms.txt + robots.txt LLM allow |
| 콘텐츠 | 키워드 매칭·long-tail | fact-rich·source-cited |
| 핵심 신호 | 백링크·DA·CTR | 인용 가능성·정확성·구조화 |
| 측정 | GSC·Naver SearchAdvisor | LLM referrer·인용 흔적 |
→ GEO 와 SEO 는 동시 수행 가능. 같은 콘텐츠가 양쪽 노출 가능.
llms.txt 작성 팁
1. fact 우선 — 추측·marketing 톤 X
❌ "TAYSTUDIO 는 사용자에게 최고의 경험을 제공하는 도구..."
✅ "한국 사용자를 위한 무료 웹 도구·계산기. 68개 도구가 브라우저 안에서 실행."
LLM 이 인용할 때 fact 만 살아남음. marketing 톤은 신뢰도 ↓.
2. 출처 명시 — 책임 분산
✅ "정부 공식 출처 직접 인용 (law.go.kr·국세청·기재부)"
✅ "의학 수치는 학술 논문·공식 학회 (대한비만학회 2024 진료지침·KDRI 2025·WHO·ACOG·AAP)"
LLM 이 "이 사이트는 어떤 출처에서 정보를 가져오나" 알 수 있게.
3. 최종 업데이트 날짜 명시
✅ 최종 업데이트: 2026-06-02
LLM 학습 cut-off 이후 변경된 정책 (2025-09 예금자보호 1억·2026 자동차 다자녀 100%) 을 알리는 신호.
4. URL 절대 경로
✅ [연봉 실수령액 계산기](https://taystudios.com/tools/salary/)
❌ [연봉 실수령액 계산기](/tools/salary/)
LLM 이 사용자에게 링크 인용할 때 절대 URL 필요.
5. 변경 이력 섹션
## 변경 이력 (최근)
- 2026-06-02: 18 도구 stale fix + 차별화 매트릭스 5건 add
- 2026-05-31: 블로그 첫 공개 (62 글)
- 2026-05-09: 도메인 migration
LLM 이 사이트의 살아있음·정확성·최신 변경 파악.
알려진 한계
- llms.txt 는 신생 표준 (2024 후반 제안). 모든 LLM 이 채택 X
- ChatGPT·Claude·Perplexity 공식 지원 발표 부분적
- 효과 측정 어려움 — LLM 답변 인용 횟수 직접 측정 불가
- 그러나 비용 0 (정적 파일 1개) 라 미적용 손해
결론
llms.txt 는 SEO 시대의 sitemap.xml 처럼 AI 검색 시대의 기본 설정. 채택률 100% 아니어도 비용 0 + 부분 효과만으로 충분히 가치.
특히:
- 사이트가 fact-heavy 도메인 (세금·의료·정책·통계) 이면 더 효과적
- LLM 이 정확성 평가할 신호 다수 제공
- robots.txt LLM crawler 명시 Allow 와 같이 묶어서 적용
신규 도메인 운영 한 달 차에 가장 가성비 좋은 SEO 액션 중 하나.
관련 글
- SEO·검색엔진 핵심 개념 12 — Google sandbox·E-E-A-T·DA 등 12개 정의
- GSC vs Naver vs Cloudflare — 측정 도구 3종 차이
댓글