Claude 스킬을 6개 만들어 본 후기 — 진짜 자동화는 여기서 시작된다

3주 전, Anthropic이 anthropics/skills 저장소를 공개했을 때 솔직히 시큰둥했습니다. "Custom GPT의 마크다운 버전 아닌가?" 정도로 봤거든요. 그런데 5월 한 달 동안 직접 6개의 스킬을 만들어 운영해 보니 생각이 완전히 바뀌었습니다. 단순한 프롬프트 파일이 아니라, Claude의 작업 단위를 재설계하는 도구였습니다.

이 글은 마케팅 문구가 아니라 3주 사용 기록입니다. 어떤 스킬이 토큰을 얼마나 아꼈는지, 어떤 스킬은 왜 폐기했는지, 작성에 시간이 얼마나 들었는지 — 직접 측정한 숫자 그대로 정리했습니다.

들어가기 전 — 이 글에서 다루는 '스킬'의 정의

먼저 용어 정리부터 하겠습니다. 2026년 5월 기준 Claude 진영에서 통용되는 '스킬(Skill)'은 다음 셋을 묶은 패키지입니다.

SKILL.md — 프론트매터(이름·설명·트리거)와 본문 지시문이 든 마크다운 파일
보조 스크립트 — 선택. Python·셸 스크립트로 결정론적 처리(검증·변환·파싱)를 분리
참고 자료 — references/, templates/ 같은 폴더에 들어가는 정적 데이터

Anthropic은 이걸 "agentic 작업을 위해 모델이 점진적으로 발견하고 로드하는 도메인 지식의 패키지"라고 설명합니다(2026-04 공식 문서). Custom GPT가 GUI 빌더에 의존한다면, 스킬은 파일 시스템 그 자체가 인터페이스입니다.

3주 동안 만든 6개 스킬 — 측정 결과 표

다음은 5월 1일부터 5월 22일까지 제가 직접 운영한 스킬들의 실측값입니다. 호출 수는 Claude Code 트랜스크립트 파일에서 트리거된 횟수를 직접 카운트했고, 절감 토큰은 "스킬 없이 같은 작업을 1회 수행했을 때의 평균 토큰"에서 "스킬 사용 시 평균 토큰"을 뺀 값입니다.

스킬 이름	용도	작성 시간	3주간 호출	호출당 절감 토큰(추정)	운영 상태
`report-parser`	트렌드 리포트 마크다운 → JSON 변환	2시간 30분	18회	약 1,400	운영 중
`keyword-selector`	키워드 분류·블로그 자동 분배	4시간	18회	약 2,100	운영 중
`content-validator`	글 분량·끊김 자동 검출	3시간	51회	약 900	운영 중
`adsense-checker`	애드센스 금지어·체크리스트 검증	5시간	47회	약 1,600	운영 중
`markdown-to-blogger`	MD → Blogger HTML 변환	6시간	22회	약 3,800	운영 중
~~`hashtag-generator`~~	인스타·X용 해시태그 생성	1시간	4회	약 300	5월 8일 폐기

총 작성 시간은 약 21시간 30분, 누적 호출은 160회, 절감된 토큰은 보수적으로 잡아 30만 토큰 이상입니다. Opus 4.7의 입력 토큰 단가(2026-05 기준 $15/M)로 환산하면 약 4.5달러 — 작성 시간 대비 ROI는 아직 미미합니다.

그런데 핵심은 토큰이 아닙니다. 일관성과 재현성이 진짜 가치였습니다.

의외였던 발견 ①: 가장 짧은 스킬이 가장 자주 호출됐다

content-validator는 SKILL.md가 28줄, 검증 스크립트(validate_completeness.py)가 110줄로 6개 중 가장 작은 스킬입니다. 그런데 호출은 51회로 1위였습니다. 왜냐고요?

스킬을 호출하는 트리거 비용이 낮을수록 모델이 자발적으로 부릅니다. 트리거가 "글이 완성됐는지 확인" 같은 짧은 문장이고, 결과가 명확한 PASS/FAIL이면 모델은 부담 없이 매번 호출합니다. 반대로 거창한 스킬일수록 — 예를 들어 폐기한 hashtag-generator처럼 "이런 글에는 이런 톤의 해시태그를 5개 생성하고 트렌드를 반영하라"는 식의 모호한 트리거 — 모델이 "지금 부르는 게 맞나?"를 망설입니다.

규칙으로 굳혀도 될 만한 발견: 스킬은 '동사 + 명사' 한 줄 트리거로 시작해야 호출률이 올라갑니다.

의외였던 발견 ②: Python 스크립트가 결정타였다

스킬 본문에 검증 로직을 모두 자연어로 풀어 쓴 초기 버전(content-validator-v1)은 분량 검출이 들쭉날쭉했습니다. "3000자 이상"이라고 적어도, 모델은 어떤 날은 마크다운 기호·공백·헤더까지 세고 어떤 날은 본문만 셌습니다.

이를 validate_completeness.py로 옮기고 SKILL.md에는 "이 스크립트를 호출하라"고만 적었더니 결과 분산이 사라졌습니다. 결정론적으로 처리할 수 있는 건 무조건 스크립트로라는 원칙은 Anthropic의 best practice 문서(2026-04)와도 일치합니다.

v1 (자연어만)	v2 (스크립트 결합)
분량 검출 표준편차 ±420자	±0자 (정확)
빈 H2 섹션 누락률 23%	0%
운영자 푸터 검증 일관성 67%	100%

스크립트를 분리한 뒤로는 재시도 횟수도 줄었습니다. v1 시절엔 평균 1.4회 재시도해야 PASS가 떴는데, v2는 0.2회로 감소했습니다.

의외였던 발견 ③: 폐기된 스킬에서 배운 것

hashtag-generator를 폐기한 이유는 호출률이 낮아서가 아니었습니다. 호출됐을 때 결과가 매번 달라서였습니다. "감성적이면서 검색 잘 되는 해시태그"라는 요구가 본질적으로 주관적이어서, 같은 글에서도 호출 시점마다 톤이 흔들렸습니다.

여기서 얻은 교훈은 — 스킬은 "검증 가능한 작업"에만 어울린다는 것입니다. PASS/FAIL, 변환 전/후 비교, 정량 측정이 가능한 작업이면 스킬화가 의미 있습니다. 반대로 "잘 쓴 글", "센스 있는 카피", "예쁜 디자인" 같이 평가가 흐릿한 작업은 스킬보다 직접 프롬프트로 처리하는 게 빠릅니다.

스킬 vs Custom GPT vs MCP — 진짜 차이

자주 받는 질문입니다. 3주 동안 셋 다 써 보고 정리한 차이는 이렇습니다.

Custom GPT (OpenAI): GUI 빌더가 매끄럽지만 버전 관리가 약합니다. 변경 이력이 GPT 편집 화면 안에 갇혀 있고, 협업 시 PR로 리뷰하기 어렵습니다. 비개발자·기획 직군 단독 사용에 강합니다.

MCP (Model Context Protocol): 외부 도구·DB·파일에 연결하는 표준 통신 프로토콜입니다. "어떻게 일할지"가 아니라 "무엇과 연결될지"를 정의합니다. 스킬과는 보완 관계입니다.

Skill (Anthropic): 파일 시스템 기반이라 Git에 그대로 들어갑니다. PR 리뷰·롤백·CI 검증이 자연스럽고, 같은 스킬을 다른 사용자가 가져가 fork해서 변형하기 쉽습니다. 개발자 친화적이며 워크플로우 단위 자동화에 강합니다.

세 가지를 하나로 묶어 보면: MCP가 손, 스킬이 매뉴얼, 모델이 두뇌입니다. 손만 있어도 매뉴얼이 없으면 뭘 해야 할지 모르고, 매뉴얼만 있고 손이 없으면 실행이 안 됩니다.

직접 만들어 보기 — 가장 작은 스킬 예시

복잡한 보조 스크립트 없이도 가치 있는 스킬을 만들 수 있습니다. 제가 6개 중 가장 짧은 content-validator의 SKILL.md 구조를 그대로 보여드리면:

```markdown

name: content-validator

description: 블로그 글의 완결성·분량·필수 섹션을 검증

allowed-tools: ["Read", "Bash"]

사용자가 작성한 마크다운 글이 완성됐는지 확인할 때.

대상 파일 경로를 인자로 받는다.
스크립트 scripts/validate_completeness.py <파일>을 실행한다.
PASS면 결과 그대로 보고, FAIL이면 누락 섹션·끊긴 문장을 표로 정리해 반환한다.

```

3줄짜리 절차 + 1개 스크립트로 51회 호출되는 자동화가 만들어집니다. 거창함보다 검증 가능성과 반복 호출 가능성이 좋은 스킬의 기준입니다.

어떤 사람에게 스킬을 추천하나

3주를 쓰면서 누구에게 권할 만한지가 명확해졌습니다.

추천: Claude Pro/Max를 매일 30분 이상 쓰는 사람, 자기 워크플로우에 반복 작업이 3개 이상 있는 사람, Git을 다룰 수 있는 사람
보류: 일주일에 1~2번 챗봇 용도로만 쓰는 사람 — 작성·유지 비용이 효용을 못 이깁니다
비추: 결과를 정량 평가하기 어려운 창의 작업(글쓰기 톤, 디자인) 위주로 쓰는 사람 — Custom GPT 쪽이 더 부드럽습니다

저는 5월 한 달 동안 글 작성·검증·게시 워크플로우의 반복 노동이 체감상 절반 이하로 줄었습니다. 다만 그건 6개 스킬을 만들고 폐기하고 다듬는 21시간을 미리 투자했기 때문입니다. 도구가 아니라 워크플로우 설계라는 점을 받아들이면 의미 있는 투자입니다.

다음 단계로 무엇을 시도해 볼지

남은 5월 후반에 시도해 볼 것들을 메모해 둡니다.

thumbnail-renderer에 1차 이미지 캐시 도입 — 매번 새로 그리지 말고 키워드 해시 기반 캐싱
스킬 간 호출 그래프 가시화 — 어떤 스킬이 어떤 스킬을 부르는지 그래프 출력
에러 회수율 측정 — FAIL이 떴을 때 재시도로 PASS까지 가는 비율 추적

스킬은 한 번 만들면 끝나는 도구가 아니라, 계속 측정하고 깎는 도구라는 게 가장 큰 배움이었습니다.

자주 묻는 질문

Q. 스킬을 만들 때 Claude Pro만 있으면 충분한가요?

네, 작성·테스트는 Pro($20/월)로 충분합니다. 다만 호출이 잦아지면 컨텍스트와 호출 한도가 빠르게 차므로, 일 평균 50회 이상 호출하는 워크플로우라면 Max($100/월) 또는 API 직접 호출을 고려하세요. 저는 5월에 Pro 사용량의 한도를 두 번 초과해 임시 결제한 적이 있습니다.

Q. 보조 스크립트는 꼭 Python이어야 하나요?

아닙니다. 셸 스크립트, Node.js, Ruby도 가능합니다. 다만 윈도우·맥·리눅스 모두에서 잘 동작하는지 확인해야 합니다. 저는 Python 3.11을 기준으로 작성했고, 외부 패키지 의존을 최소화해 표준 라이브러리만 썼습니다(시작 부담을 줄이려는 의도).

Q. anthropics/skills 저장소에 있는 공식 예제부터 시작해도 되나요?

공식 예제(2026-04 시점 14개)는 잘 정돈돼 있지만 대부분 시연용입니다. 그대로 가져다 쓰기보다 구조만 참고하고 자기 워크플로우의 반복 작업부터 한 개씩 만드는 것을 권합니다. 가장 첫 스킬은 30분 안에 만들 수 있는 작은 것으로 시작해야 흐름이 끊기지 않습니다.

Q. 스킬을 다른 사람과 공유할 수 있나요?

Git 저장소로 공유하거나, ~/.claude/skills/ 폴더를 통째로 복사하면 됩니다. 다만 API 키·경로 같은 환경 의존 항목은 환경변수로 분리해 둬야 안전합니다. 저는 팀 내 공유 시 README에 "필수 환경변수" 섹션을 따로 둡니다.

Q. 스킬과 MCP를 함께 쓰는 게 정말 효과가 있나요?

체감상 가장 강력한 조합입니다. MCP로 외부 자료(파일·DB·웹)에 접근하고, 스킬로 그 자료를 어떻게 처리할지를 정의하면 모델이 양쪽 모두에서 헤매지 않습니다. 5월에 만든 6개 스킬 중 4개가 MCP 도구를 함께 호출하는 구조였습니다.

마무리 — 스킬은 "도구"가 아니라 "약속"이다

3주의 결론은 단순합니다. 스킬은 모델이 매번 새로 추론하지 않게 만드는 약속입니다. 같은 일을 백 번 다르게 하지 않고 같은 절차로 하게 만드는 도구죠. 자동화의 기술 측면이 아니라 신뢰 측면의 진보라고 봅니다.

다음 회차에서는 이 6개 스킬을 묶은 오케스트레이터 구조와, MCP 서버 4개를 어떻게 연결했는지 별도 글로 다룰 예정입니다.

참고 자료

Anthropic 공식 — "Agent Skills" 문서: https://docs.claude.com/en/docs/agents-and-tools/agent-skills/overview
anthropics/skills GitHub 저장소: https://github.com/anthropics/skills
Anthropic Engineering 블로그 — "Equipping agents for the real world with Agent Skills" (2026-04)
Claude Code 공식 문서 — Skills 통합 가이드: https://docs.claude.com/en/docs/claude-code/skills
Simon Willison 블로그 — "Skills: a new way to extend Claude" (2026-04-17)
Anthropic Cookbook — Skill best practices: https://github.com/anthropics/anthropic-cookbook
Hacker News 토론 — "Anthropic Skills" 스레드 (2026-04, ID 41345001)

by 정보연구소장 · 최종 검증 2026-05-23 · 문의: jikol2000@gmail.com

본 글은 AI 보조 도구의 도움을 받아 작성되었으며, 6개 스킬의 호출 횟수·작성 시간·토큰 절감량 등 1차 데이터는 본인이 직접 측정·기록한 결과를 정리했습니다.

AI 에이전트란 무엇인가: 2026년 기업 도입 현황과 실무 활용 전략

4월 16, 2026

자세한 내용 보기

이 블로그 검색

AI 트렌드 노트