생성형 AI 시대의 ai.txt 및 llms.txt 설정 가이드 (초보자용 SEO/AEO/GEO)
ai.txt 및 llms.txt를 이해하고 직접 작성할 수 있도록 정리한 초보자용 가이드입니다.
목차
생성형 AI 이후, 왜 새로운 텍스트 파일이 등장했을까?
AI 등장 이전에는, 검색엔진이 웹사이트를 찾아와 페이지를 수집하고 그 대신 검색 결과에 노출시켜 방문자를 보내주는 구조가 전부였습니다.
하지만 이제는 많은 사람들이 검색창 대신 챗GPT 같은 AI에게 직접 질문을 합니다.
AI는 여러 웹사이트의 내용을 읽어 조합해, 사용자가 해당 사이트를 직접 방문하지 않아도 되는 답변을 만들어 줍니다.
Cloudflare 등의 자료에 따르면 이런 AI 봇이 웹페이지를 읽어 가는 비율은 매년 늘어나고 있고, 그 상당수는 AI 모델을 학습시키거나 관련 서비스를 제공하기 위한 용도로 활용되는 것으로 분석되고 있습니다. 또한 유럽연합(EU)은 AI가 콘텐츠를 학습할 때, 저작권자가 “우리 콘텐츠는 쓰지 말라”고 명시할 수 있는 권리(opt-out)를 법제화하기 시작했습니다.
이런 환경 변화 속에서 웹사이트 운영자는 다음과 같은 질문에 답을 내려야 합니다.
- 우리 사이트 글을 AI가 ‘공부용(훈련용)’으로 사용해도 되는가?
- 허용한다면, 어디까지·어떤 종류의 콘텐츠까지 허용할 것인가?
- AI가 우리 사이트를 참고할 때, 어떤 문서부터 어떻게 읽어야 하는지 안내할 필요가 있는가?
이 질문에 체계적으로 답하기 위해, 기존의 robots.txt에 더해, ai.txt, llms.txt 라는 도구가 제안되었고, 몇몇 플랫폼과 서비스에서 실제로 쓰이기 시작했습니다.
robots.txt / ai.txt / llms.txt 특징
robots.txt
- 위치: https://내도메인/robots.txt
- 대상: 검색엔진, 일반 크롤러, 일부 AI 봇
- 목적: “어디까지 크롤링해도 되는지, 하지말아야 하는지”를 알려주는 파일
- 형식: 단순 텍스트, 규칙 기반
- 표준화: 오래된 웹 표준(RFC 기반)으로 가장 널리 쓰이는 크롤링 제어 규칙
ai.txt
- 위치: https://내도메인/ai.txt
- 대상: AI 크롤러, AI 에이전트
- 목적: “어떤 콘텐츠를 AI가 학습·요약해도 되는지”를 더 구체적으로 설명하는 파일
- 형식: 단순 텍스트, 규칙 + 메타정보(데이터 포맷, API 경로 등)
- 표준화: 아직 공식 표준이 아닌 제안·실험 단계
llms.txt
- 위치: https://내도메인/llms.txt
- 대상: LLM(챗봇 등)이 답변을 만들 때 참고하는 문서
- 목적: “AI가 답변할 때 어떤 문서를 먼저 읽어야 하는지”를 안내하는 요약·색인 파일
- 형식: 마크다운(Markdown) 텍스트
- 표준화: Jeremy Howard가 제안한 llmstxt.org 비공식 표준을 따르는 형식으로 여러 도구와 사이트에서 빠르게 확산 중
정리하자면,
- robots.txt = “누가 어디까지 들어와도 되는지”를 정하는 출입 규칙
- ai.txt = “AI가 우리 콘텐츠를 어떤 용도와 범위까지 써도 되는지”를 설명하는 사용 안내문
- llms.txt = “AI가 답변을 만들 때 먼저 읽어야 할 핵심 문서 목록”을 모아 둔 안내서
라고 이해하시면 됩니다.
ai.txt는 무엇을 하는 파일일까?
ai.txt는 쉽게 말해, “우리 사이트 글을 AI가 어떻게 써도 되는지 알려주는 사용 설명서” 입니다.
조금 더 구체적으로는 다음 내용을 정리하는 파일입니다.
- AI가 어디까지 읽어가도 되는지
- 읽어간 내용을 어떤 용도로 써도 되는지 (예: 검색, 요약, Q&A 답변 생성, 모델 훈련)
- 가능하다면 어떤 형식의 데이터를 우선 사용해 달라고 요청할지 (예: JSON, 마크다운, 전용 API 등)
ai.txt로 무엇을 제어할 수 있을까?
1) 허용/차단 범위
예를 들어 다음처럼 구분할 수 있습니다.
- 공개 문서, 공지사항, 블로그 글
→ AI가 요약·검색·답변 생성에 활용해도 됨 - 유료 강의, 내부 리포트, 회원 전용 게시판
→ AI가 학습·요약·검색에 사용하면 안 됨
범위는 Allow, Disallow 같은 지시어로 표현할 수 있습니다.
2) 우선적으로 참고했으면 하는 데이터 경로
AI 입장에서는 복잡한 HTML 전체를 읽는 것보다, 정리된 JSON, 마크다운 문서, 검색 API를 먼저 보는 것이 효율적입니다. 그래서 ai.txt에 다음과 같은 힌트를 넣을 수 있습니다.
- Sitemap: 문서 전용 사이트맵
- Data-Format: 선호 데이터 형식 (예: json, markdown)
- API-Search: 검색 API 주소
이렇게 적어 두면, AI가 어떤 경로와 형식의 데이터를 먼저 봐야 하는지 더 쉽게 이해할 수 있습니다.
3) 정책(Policy) 문장
사람이 읽었을 때도 이해할 수 있도록 AI 사용 원칙을 한두 문단으로 써둡니다.
예를 들어:
- “회원이 작성한 댓글과 게시글은 어떤 형태로도 AI 훈련에 사용하지 않습니다.”
- “공개된 도움말과 개발 문서는 질문에 답하기 위한 용도로만 사용해 주세요.”
이렇게 적어 두면, 법무·브랜드·파트너와 논의할 때 기준이 훨씬 명확해집니다.
어떤 사이트에 ai.txt가 중요할까?
아래에 한 가지라도 해당된다면, ai.txt를 도입하는 편이 좋습니다.
- 유료·전문 콘텐츠가 많은 사이트
- 유료 강의, 유료 뉴스, 리포트, 전문 분석 자료 등
- 돈을 받고 제공하는 콘텐츠를 AI가 마음대로 학습하도록 두고 싶지 않은 경우
- 회원이 글을 많이 쓰는 커뮤니티형 서비스
- 카페, 게시판, 리뷰 서비스, Q&A 서비스 등
- “회원 글은 훈련에 쓰지 않겠다”거나, “동의한 글만 쓰겠다”는 방침을 명확히 하고 싶은 경우
- 브랜드·법무·정책 리스크가 큰 서비스
- 금융, 의료, 교육, 공공 영역 등
- “언제부터 어떤 조건으로 허용/차단했는지” 기록을 남겨야 할 가능성이 있는 서비스들
ai.txt 기본 작성 예시 (초보자용 템플릿)
아래는 가장 단순한 형태의 예시입니다.
참고로, ai.txt는 반드시 영어로 써야 하는 공식 규정은 없지만,
User-Agent, Allow, Disallow, Sitemap 같은 지시어와 경로는 영어를 써야 하고, 해외 AI 크롤러·개발자까지 고려하면 Policy 문장도 영어로 작성하는 편이 기본값이라고 보시면 됩니다.
예시 가정: 블로그·문서·헬프센터는 허용하고, 회원 영역과 결제 영역은 금지.
ai.txt for yourdomain.com
# ===========================================================
# ai.txt — General AI and Agent Access Policy
# Applies to: {{website_url}}
# Version: {{version}}
# Last-Updated: {{last_updated}}
# Maintainer: {{maintainer}}
# ===========================================================
# Purpose:
# Describe how responsible AI systems may use public content
# from {{website_url}}.
# Note: robots.txt always takes precedence for crawling rules.
User-Agent: *
Allow: /blog/
Allow: /docs/
Allow: /help/
Disallow: /members/
Disallow: /billing/
Disallow: /admin/
Disallow: /user-data/
Sitemap: {{website_url}}/sitemap.xml
# Policy:
# - Public blog, docs, and help center pages MAY be used for
# indexing, search, summarization, and Q&A answering.
# - Member-only pages, payment/checkout flows, and any user-specific
# or personal data MUST NOT be used for model training or use in
# AI-generated answers.
# - Reasonable attribution to {{company_name_en}} is recommended
# when content is shown to end users.
항목별 내용은 다음과 같습니다.
- User-agent: *
→ 모든 AI/크롤러에 공통 적용 - Allow / Disallow
→AI가 사용해도 되는 경로와, 사용하면 안 되는 경로를 구분합니다.
→ 예시에서는 /blog/, /docs/, /help/ 만 허용하고, 회원·결제·관리·개인정보 관련 경로는 차단합니다. - Sitemap
→ “이런 데이터/문서를 먼저 봐 달라”는 요청 - Policy
→ “어떤 용도로는 사용해도 되고, 어떤 용도로는 안 된다”는 기준을 사람이 읽기 좋은 문장으로 명시
ai.txt 작성 시 체크포인트
- 정말 써도 되는 영역만 Allow로 열어두었는지
- 회원 정보, 결제 정보, 내부 관리 페이지는 기본적으로 Disallow에 두는 편이 안전합니다.
- 허용/차단 기준을 문장으로 정리했는지
- 한글 또는 영어 중 하나로, “어디까지 허용/금지인지”를 명확하게 작성합니다.
- 마지막 수정 날짜를 남겼는지
- Last-Updated: YYYY-MM-DD 형식으로 기록해 두면 정책 히스토리 관리와 나중에 변경 내역 확인이 쉬워집니다.
- 실제 URL로 열어봤는지
- 브라우저에서 https://내도메인/ai.txt 를 직접 입력해 인코딩 깨짐 없이 잘 보이는지, 오타는 없는지 확인합니다.
- robots.txt와 모순되지 않는지
- robots.txt에서 Disallow한 경로는 ai.txt에서도 “사용 불가” 또는 “비공개 영역”으로 일관되게 처리했는지 확인합니다.
- 예를 들어 robots.txt에서 Disallow: /members/ 인데 ai.txt에서 /members/ 를 허용하거나 학습 가능하다고 써두면 두 파일의 메시지가 서로 달라져 혼란을 줄 수 있습니다.
llms.txt는 무엇을 하는 파일일까?
llms.txt는 챗GPT 같은 대형 언어 모델(LLM)이 “이 사이트를 이해하려면 어떤 문서부터 읽어야 하는지” 알 수 있도록 돕는 요약·색인 파일입니다.
- 사이트 개요를 한 번에 설명
- “이 사이트가 무엇을 하는 곳인지”, “어떤 주제/서비스에 강점이 있는지”를 2~3줄로 요약.
- 핵심 문서 우선순위 제안
- 헬프센터, 기능 설명, 가격 안내, FAQ, 약관, 주요 서비스 페이지 등 “이런 문서를 먼저 읽어라”는 식으로 링크와 짧은 설명을 제공.
- 정리된 링크 구조 제공
- ## Docs, ## API, ## Policies 처럼 섹션을 나누고 그 아래에 대표 문서를 리스트로 모아, 사람이 봐도 이해가 쉽도록 구성
위치는 https://사이트/llms.txt로 고정이며, 형식은 일반적인 마크다운 문서 형태를 따릅니다.
왜 llms.txt를 사용해야 할까?
다음 유형의 사이트는 llms.txt를 쓰는 이점이 큽니다.
- 문서/헬프센터가 많은 서비스형 웹사이트
- “우리 서비스 사용법은 공식 문서를 기준으로 답해 달라”는 메시지를 주기에 적합합니다.
- 블로그·SEO 콘텐츠가 많은 사이트
- 주요 글/카테고리를 LLM에게 미리 정리해 두면 “이 글들을 우선 참고해라”는 시그널을 줄 수 있습니다.
- 전문성과 신뢰성이 중요한 업종
- 법률, 의료, 금융, 공공 서비스, 기술 지원 등 잘못된 요약·오용을 줄이기 위해 “정확한 정책·약관·가이드 문서 링크”를 중심으로 모아두는 것이 유용합니다.
- 다양한 카테고리/언어를 다루는 컨텐츠 허브
- 책/영화/상품 리뷰, 교육 콘텐츠, 기술 블로그 등 llms.txt로 카테고리별 대표 글을 정리하면 LLM이 문맥을 잡고 답변을 생성하기 쉽습니다.
한마디로, “AI에게 우리 사이트를 제대로 소개하고 싶은 곳” 이라면 llms.txt는 가볍게 도입해볼 만한 도구입니다.
llms.txt 기본 작성 예시 (초보자용 템플릿)
llms.txt는 비공식 표준이지만, llmstxt.org에서 제안한 형식을 최대한 따라 주는 것이 좋습니다.
- #로 시작하는 #제목 필수
- >로 시작하는 2~3줄짜리 짧은 요약(Blockquote)
- 사이트·서비스를 설명하는 일반 문단
- ##로 시작하는 섹션 아래에
- [문서 이름](URL): 설명 형식의 링크 리스트
아래 예시를 보면 흐름이 좀 더 명확해집니다.
# {{site_name}}
> {{site_name}} is a {{short_description}}.
> This file helps large language models (LLMs) find the most important
> resources on {{site_name}} and answer questions accurately.
Generated for language model processing.
Last-Updated: {{YYYY-MM-DD}}
Important notes:
- This llms.txt file is a non-standard, best-effort guide for LLMs.
- It does not control crawling or access. robots.txt and server settings
always take precedence.
- Only public, non-sensitive URLs should be listed here.
- Keep links and descriptions concise, and update this file when key
docs or URLs change.
## Sitemaps
- [XML Sitemap]({{base_url}}/sitemap_index.xml): Includes all crawlable and indexable pages.
- [Main Sections]({{base_url}}/sitemap.xml): Core pages for users and search engines.
## Docs
- [Getting Started]({{base_url}}/docs/getting-started/): Overview of the service and first steps for new users.
- [Features]({{base_url}}/docs/features/): Key features and how they work in practice.
- [FAQ]({{base_url}}/docs/faq/): Frequently asked questions and short answers.
## Blog
- [All Articles]({{base_url}}/blog/): Main blog index covering {{main_topics}}.
- [Key Article 1]({{base_url}}/blog/{{slug_1}}/): {{one_sentence_summary_1}}
- [Key Article 2]({{base_url}}/blog/{{slug_2}}/): {{one_sentence_summary_2}}
## Services
- [Main Service]({{base_url}}/services/): Overview of core services and who they are for.
## Policies
- [Terms of Service]({{base_url}}/terms/): Contractual terms for using {{site_name}}.
- [Privacy Policy]({{base_url}}/privacy/): How user data is collected, stored, and processed.
- [Cookie Policy]({{base_url}}/cookies/): Information about cookies and tracking technologies.
## Optional
- [About]({{base_url}}/about/): Background, mission, and team information.
- [Contact]({{base_url}}/contact/): How to reach the {{site_name}} team.
- [Changelog]({{base_url}}/changelog/): Notable updates and release history.
이 형식으로 작성하면, 사람도 읽기 쉽고 AI도 “어떤 문서가 중요한지, 어떤 순서로 참고해야 하는지”를 파악하기 쉽습니다.
llms.txt 작성 시 체크포인트
작성할 때 아래 항목만 체크해도 기본은 충족합니다.
- H1 제목이 있는지: 맨 첫 줄에 # 서비스/사이트 이름 형태로 작성
- 짧은 요약이 blockquote 형식으로 있는지: >로 시작하는 2~3줄 요약
- “이 사이트가 무엇을 하는 곳인지”를 한 번에 이해할 수 있도록 작성 - 핵심 문서 링크가 리스트로 정리되어 있는지: [문서 이름](URL): 설명 형식 사용
- 시작 가이드, 기능 설명, FAQ, 약관, 개인정보 처리방침, API 문서 정도는 기본 포함 - llms.txt에 적힌 URL이 실제로 열리는지: 링크를 직접 클릭해 404, 로그인 요구, 삭제된 문서가 없는지 확인
내 사이트에 적용하는 순서 (단계별 튜토리얼)
마지막으로, ai.txt와 llms.txt를 실제로 적용할 때 순서를 정리합니다.
1단계: AI 사용 원칙부터 정리하기
- 우리 사이트에서 AI가 사용해도 되는 콘텐츠는 어디까지인가?
- 예: 블로그, 헬프센터, 공개 공지사항, 공개 API 문서 등
- AI가 사용하면 안 되는 콘텐츠는 무엇인가?
- 예: 유료 강의, 유료 리포트, 회원 전용 게시판, 개인정보, 결제 정보 등
이 두 가지가 정리되어야 ai.txt와 llms.txt에 어떤 내용을 넣을지가 자연스럽게 결정됩니다.
2단계: ai.txt 초안 작성 및 업로드
- 메모장을 열어 ai.txt 파일을 만듭니다.
- 위에서 본 기본 템플릿을 복사해, 사이트 경로와 정책에 맞게 수정합니다.
- 파일 인코딩을 UTF-8로 저장합니다.
- 사이트 루트(웹 루트 폴더)에 업로드합니다.
- 브라우저에서 https://내도메인/ai.txt로 접속해 내용이 정상적으로 보이는지 확인합니다.
3단계: llms.txt 초안 작성 및 업로드
- “AI가 꼭 참고했으면 하는 문서” 5~10개를 먼저 고릅니다.
-시작 가이드, 기능 설명, 가격 안내, FAQ, 이용약관, 개인정보 처리방침, API 문서 등 - 마크다운 형식으로
- H1 제목
- blockquote 요약
- 서비스 설명 문단
- 섹션(## Docs, ## API, ## Policies 등)과 링크 리스트를 작성합니다.
- 파일 이름을 llms.txt로 저장합니다.
- 사이트 루트에 업로드한 뒤, https://내도메인/llms.txt 주소로 열어 확인합니다.
4단계: 정책 변경 시 함께 업데이트하는 습관 들이기
- 요금제, 이용약관, 개인정보 처리방침이 변경될 때마다 관련 문서뿐 아니라 ai.txt와 llms.txt도 함께 업데이트합니다.
- 이렇게 하면, “문서 내용은 바뀌었는데 AI 안내 파일은 예전 상태로 남아 있는”
혼선을 줄일 수 있습니다.
최종 체크리스트
- 우리 사이트에서 AI가 사용해도 되는/안 되는 콘텐츠 범위를 문장으로 정리했는가?
- ai.txt를 작성해, 허용/차단 경로와 정책 문장을 명시했는가?
- https://내도메인/ai.txt로 접속했을 때 인코딩 깨짐 없이 잘 보이는가?
- AI가 먼저 참고해야 할 핵심 문서(시작 가이드, FAQ, 약관 등)를 정리했는가?
- llmstxt.org 형식에 맞춰 llms.txt를 작성했는가? (H1, 요약, 섹션, 링크 리스트)
- https://내도메인/llms.txt로 접속해 링크와 내용이 정상인지 확인했는가?
- 약관·정책·문서 내용이 바뀔 때, ai.txt·llms.txt도 함께 업데이트하도록 내부 프로세스를 잡았는가?
이 가이드를 기준으로 내 사이트 성격에 맞게 세부 내용을 조정하면, 생성형 AI 시대에 맞는 “AI 친화 + 콘텐츠 보호” 기본 세팅은 물론, SEO와 AEO(Answer Engine Optimization, 답변 엔진 최적화)를 위한 필수 기본 토대도 함께 마련할 수 있습니다.
By 박혜정