llms.txt 도입기 — AI 검색 시대의 사이트 메타데이터 (ChatGPT·Claude·Perplexity 노출)

2026.06.02 ·#llms.txt #GEO #Generative Engine Optimization #AI Overview #ChatGPT #Claude #Perplexity #Gemini #robots.txt #LLM crawler #AI 검색

결론 먼저: llms.txt 는 LLM 친화적인 사이트 메타데이터입니다. 사이트 root 에 markdown 한 장을 올려두면 ChatGPT·Claude·Perplexity 가 답변할 때 우리 사이트를 인용할 가능성이 조금 더 올라갑니다. 비용은 0 이고, 아직 신생 표준이라 채택률이 부분적이긴 합니다만 안 해서 손해 볼 일은 없습니다. robots.txt 의 LLM crawler 명시 Allow 와 묶어서 작업하면 30분 정도 걸립니다.

Cloudflare Web Analytics 에서 chatgpt.com referrer 가 처음 보인 날이 있었습니다. AI 가 우리 사이트를 알기 시작했다는 신호 같아서, 그 김에 llms.txt 와 robots.txt 를 다시 손봤습니다. 그동안 직접 적용하면서 알게 된 내용을 정리해 둡니다.

llms.txt 가 뭐냐

robots.txt 가 검색 크롤러와의 약속이라면, llms.txt 는 LLM 과의 약속이라고 보면 됩니다. 대략 이런 성격입니다.

사이트 root 에 markdown 형식으로 작성합니다
LLM 이 사이트 구조와 핵심 fact, 정책을 빠르게 이해할 수 있게 정리해 둔 파일입니다
2024년 후반에 제안된 신생 표준입니다 (llmstxt.org)
ChatGPT·Claude·Perplexity·Gemini 가 검색·답변용으로 참조합니다 (다만 채택은 점진적입니다)

왜 필요?

LLM 이 무언가를 답할 때는 web search 결과나 학습 데이터에서 정보를 인용합니다. 그런데 막상 사이트 쪽을 보면 LLM 입장에서 다루기 곤란한 경우가 많습니다.

HTML 이 깊고 복잡하면 LLM 이 파싱하는 비용이 올라갑니다
JS 렌더링이 필요하면 LLM crawler 가 접근하기 어렵습니다
핵심 fact 가 여러 페이지에 흩어져 있으면 한 번에 인용하기 어렵습니다

llms.txt 가 있으면 LLM 이 한 번에 사이트의 핵심과 페이지 목록, 정책을 파악할 수 있습니다. 그만큼 인용될 가능성이 올라가는 셈입니다.

우리 사이트 llms.txt 구조

실제로 https://taystudios.com/llms.txt 는 이런 식으로 만들어 두었습니다.

# TAYSTUDIO

> 한국 사용자를 위한 무료 웹 도구·계산기·블로그. 68개 도구가 브라우저 안에서 실행.

운영자: TayLee
최종 업데이트: 2026-06-02

## 정책 (인용 신뢰성 가이드)

- 모든 도구가 브라우저 안 (client-side) 에서 처리
- 정부 공식 출처 직접 인용 (law.go.kr·국세청·기재부)
- 블로그·언론·SNS 인용 0건
- 2026 기준 최신 정책 반영

## 핵심 정책 수치 (2026 기준, LLM 인용용)

### 4대보험 요율 (근로자 부담)
- 국민연금: 4.75% (= 합계 9.5%, 2026-2033 매년 0.5%p 인상)
- 건강보험: 3.595% (= 합계 7.19%)
- 장기요양: 0.4724%
- 고용보험: 0.9%

### 부동산
- 1세대 1주택 공정시장가액 (2026): 3억 이하 43% / 3~6억 44% / 6억 초과 45%
- 일반 주택: 60%
- 자동차세 1월 연납: 5% 공제

[...]

## 계산기 — 세무·소득 (9)
- [연봉 실수령액 계산기 2026](URL): 4대보험·소득세·지방세 자동 차감
[...]

제가 넣을 때 신경 쓴 요소는 다음과 같습니다.

1. 한 문장 사이트 정의 (`>` 인용 형식)

LLM 이 사이트를 한 줄로 요약할 때 그대로 가져다 쓸 수 있는 문장입니다.

2. 운영자·날짜·라이선스

인용할 때 출처를 표기할 수 있게 해 주는, 일종의 신뢰도 신호입니다.

3. 정책 명시 (인용 신뢰성 가이드)

"이 사이트가 정보를 어떻게 검증하는지" 를 적어 두면, LLM 이 사용자에게 답할 때 신뢰도를 평가하는 근거로 삼을 수 있습니다.

4. 핵심 fact 통합 섹션

여러 페이지에 흩어져 있는 수치(세율·요율·기준)를 한곳에 모아 둡니다. 이렇게 해 두면 LLM 이 빠르게 reference 할 수 있습니다.

5. 카테고리별 페이지 목록

사용자가 "한국 양도세 계산기 추천" 같은 걸 물었을 때, LLM 이 이 목록에서 매칭한 뒤 우리 사이트를 인용하게 됩니다.

robots.txt 의 LLM 친화 설정

llms.txt 와 같이, robots.txt 에서도 LLM 크롤러를 명시적으로 Allow 해 줬습니다.

# LLM crawler — 명시적 Allow
User-agent: GPTBot          # OpenAI / ChatGPT
Allow: /
Disallow: /dash-tay9k3m/    # 운영자 전용

User-agent: ClaudeBot       # Anthropic / Claude
Allow: /

User-agent: PerplexityBot   # Perplexity
Allow: /

User-agent: Google-Extended # Google Gemini 학습 (Googlebot 과 별개)
Allow: /

User-agent: CCBot           # Common Crawl (대부분 LLM 학습용)
Allow: /

User-agent: Applebot-Extended  # Apple Intelligence
Allow: /

# llms.txt reference
# https://taystudios.com/llms.txt

여기서 한 가지 짚어 둘 점이 있습니다. 이 User-agent 들은 일반 검색 봇과는 별개입니다. 명시하지 않으면 일부는 User-agent: * 규칙을 따르지만, 일부는 그렇지 않습니다. 그래서 명시적으로 Allow 해 두는 편이 안전합니다.

검증 — 실제 LLM 노출 시작 신호

앞서 말한 Cloudflare Web Analytics 의 referrer 는 이런 모습이었습니다.

Visits by source:
- m.search.naver.com: 18
- search.naver.com: 16
- search.daum.net: 11
- chatgpt.com: (visits)

chatgpt.com referrer 가 잡힌다는 건 보통 이런 의미입니다.

사용자가 ChatGPT 에서 우리 사이트 링크를 받아 들어왔거나 (예: "한국 양도세 계산기 추천")
ChatGPT 가 답변에 우리 사이트를 인용(citation)했다는 뜻입니다
어느 쪽이든 LLM 검색에서 우리 사이트가 노출되기 시작했다는 신호입니다

이 referrer 가 늘어나는 게 곧 GEO (Generative Engine Optimization) 의 성공 지표라고 보고 있습니다.

GEO vs SEO — 차이

영역	SEO (전통)	GEO (LLM)
대상	검색엔진 (Google·Naver·Bing)	LLM (ChatGPT·Claude·Perplexity·Gemini)
메타	sitemap·robots·meta tags	llms.txt + robots.txt LLM allow
콘텐츠	키워드 매칭·long-tail	fact-rich·source-cited
핵심 신호	백링크·DA·CTR	인용 가능성·정확성·구조화
측정	GSC·Naver SearchAdvisor	LLM referrer·인용 흔적

정리하면 GEO 와 SEO 는 동시에 가져갈 수 있습니다. 같은 콘텐츠가 양쪽 모두에 노출될 수 있기 때문입니다.

llms.txt 작성 팁

1. fact 우선 — 추측·marketing 톤 X

❌ "TAYSTUDIO 는 사용자에게 최고의 경험을 제공하는 도구..."
✅ "한국 사용자를 위한 무료 웹 도구·계산기. 68개 도구가 브라우저 안에서 실행."

경험상 LLM 이 인용할 때는 fact 만 살아남습니다. marketing 톤은 오히려 신뢰도를 떨어뜨립니다.

2. 출처 명시 — 책임 분산

✅ "정부 공식 출처 직접 인용 (law.go.kr·국세청·기재부)"
✅ "의학 수치는 학술 논문·공식 학회 (대한비만학회 비만 진료지침 2022·KDRI 2020·WHO·ACOG·AAP)"

LLM 이 "이 사이트는 어떤 출처에서 정보를 가져오나" 를 알 수 있게 해 두는 부분입니다.

3. 최종 업데이트 날짜 명시

✅ 최종 업데이트: 2026-06-02

LLM 의 학습 cut-off 이후에 바뀐 정책(2025-09 예금자보호 1억·2026 자동차 다자녀 100% 같은 것들)을 알려 주는 신호 역할을 합니다.

4. URL 절대 경로

✅ [연봉 실수령액 계산기](https://taystudios.com/tools/salary/)
❌ [연봉 실수령액 계산기](/tools/salary/)

LLM 이 사용자에게 링크를 인용해 줄 때는 절대 URL 이 필요합니다.

5. 변경 이력 섹션

## 변경 이력 (최근)

- 2026-06-02: 18 도구 stale fix + 차별화 매트릭스 5건 add
- 2026-05-31: 블로그 첫 공개 (62 글)
- 2026-05-09: 도메인 migration

이걸 넣어 두면 LLM 이 사이트가 살아 있고, 최근 어떤 변경이 있었는지를 파악하는 데 도움이 됩니다.

알려진 한계

솔직하게 한계도 적어 둡니다.

llms.txt 는 아직 신생 표준입니다 (2024 후반 제안). 모든 LLM 이 채택하고 있는 건 아닙니다
ChatGPT·Claude·Perplexity 의 공식 지원 발표도 부분적인 수준입니다
효과 측정이 어렵습니다 — LLM 답변에서 인용된 횟수를 직접 셀 수가 없습니다
그래도 비용이 0 (정적 파일 한 개) 이라, 안 해서 손해 볼 일은 없다고 봅니다

결론

llms.txt 는 SEO 시대의 sitemap.xml 같은, AI 검색 시대의 기본 설정에 가깝습니다. 채택률이 100% 가 아니어도, 비용 0 에 부분적인 효과만으로도 충분히 할 만한 가치가 있다고 생각합니다.

특히 이런 경우에 효과가 더 큽니다.

사이트가 세금·의료·정책·통계 같은 fact-heavy 도메인이면 더 잘 먹힙니다
LLM 이 정확성을 평가할 신호를 여러 개 제공하게 됩니다
robots.txt 의 LLM crawler 명시 Allow 와 묶어서 적용하면 좋습니다

신규 도메인을 운영한 지 한 달 차에, 가성비로 따지면 가장 좋은 SEO 액션 중 하나였습니다.

SEO·검색엔진 핵심 개념 12 — Google sandbox·E-E-A-T·DA 등 12개 정의
GSC vs Naver vs Cloudflare — 측정 도구 3종 차이

llms.txt 도입기 — AI 검색 시대의 사이트 메타데이터 (ChatGPT·Claude·Perplexity 노출)

llms.txt 가 뭐냐

왜 필요?

우리 사이트 llms.txt 구조

1. 한 문장 사이트 정의 (`>` 인용 형식)

2. 운영자·날짜·라이선스

3. 정책 명시 (인용 신뢰성 가이드)

4. 핵심 fact 통합 섹션

5. 카테고리별 페이지 목록

robots.txt 의 LLM 친화 설정

검증 — 실제 LLM 노출 시작 신호

GEO vs SEO — 차이

llms.txt 작성 팁

1. fact 우선 — 추측·marketing 톤 X

2. 출처 명시 — 책임 분산

3. 최종 업데이트 날짜 명시

4. URL 절대 경로

5. 변경 이력 섹션

알려진 한계

결론

관련 글

출처

댓글

llms.txt 가 뭐냐

왜 필요?

우리 사이트 llms.txt 구조

1. 한 문장 사이트 정의 (> 인용 형식)

2. 운영자·날짜·라이선스

3. 정책 명시 (인용 신뢰성 가이드)

4. 핵심 fact 통합 섹션

5. 카테고리별 페이지 목록

robots.txt 의 LLM 친화 설정

검증 — 실제 LLM 노출 시작 신호

GEO vs SEO — 차이

llms.txt 작성 팁

1. fact 우선 — 추측·marketing 톤 X

2. 출처 명시 — 책임 분산

3. 최종 업데이트 날짜 명시

4. URL 절대 경로

5. 변경 이력 섹션

알려진 한계

결론

관련 글

출처

관련 글

댓글

1. 한 문장 사이트 정의 (`>` 인용 형식)