harnesslog.dev

Claude Code, AI, 개발 이야기

KO · EN
H
hwangjungmin

Haiku 3는 많은 사람에게 나쁜 인상을 남겼다. 나도 그랬다. 쓸만한 모델이 아니었고, 그 인식이 Haiku 전반에 대한 선입견으로 굳어진 거다.

근데 Haiku 4.5가 Opus보다 나은 지점이 하나 있는데, 지침을 말 그대로 따르는 거다. Opus는 추론을 잘한다. 그게 장점이긴 한데, 그 추론 능력이 오히려 문제가 되는 경우가 있더라고. 프롬프트에 적힌 걸 자기 판단으로 해석하거나 무시하는 거다. 실제로 Opus 4.6에 참조 문서를 4~5번 다시 읽으라고 해도 계속 특정 지침을 무시했다는 GitHub 이슈도 있고, 슬라이드 텍스트 생성 벤치마크에서는 Haiku가 지침 준수율 65%로 프리미엄 모델의 44%를 앞섰다는 결과도 있다.

프롬프트를 해석하지 말고, 개선하지 말고, 그냥 실행하게 하고 싶을 때 Haiku가 더 믿음직하다. 빠르고 저렴하다는 이유로 쓰는 사람이 많은데, 지침 충실도 쪽은 잘 언급되지 않는다.