Autoresearch, 스킬에 적용하면

Karpathy가 autoresearch를 공개했다. 약 630줄짜리 단일 GPU LLM 학습 코드인데, 사람은 마크다운 프롬프트만 쓰고 AI 에이전트가 학습 코드를 자율적으로 반복 개선하는 거다. 실험과 실험 사이에 사람이 개입하지 않는다. 이틀에 700번 실험. Shopify CEO가 하룻밤 돌렸더니 37번 실험에 성능 19% 향상이 나왔다고 하더라고. Karpathy는 “프론티어 랩들이 결국 다 이렇게 될 것”이라고 했다.

핵심은 루프 자체인 거다. 실행 → 점수 → 변이 → 유지. 대상이 ML 학습 코드일 필요는 없다.

autoresearch 스킬은 이 루프를 Claude Code 스킬에 그대로 적용한다. SKILL.md를 넣으면 스킬을 반복 실행하고, 바이너리 평가로 점수를 매기고, 프롬프트를 변이시키고, 개선된 것만 남기는 식이다. 결과물은 개선된 SKILL.md, 실험 로그, 변이 기록이다.

스킬 외에도 후보는 많다. CLAUDE.md, MCP 서버 프롬프트, 에이전트 시스템 프롬프트 — 프롬프트이고 측정 가능한 출력이 있으면 같은 루프가 통한다.