1M 컨텍스트의 함정

1M 컨텍스트. 다 넣으면 알아서 해주겠지?

그게 아니다. MRCR이라는 벤치마크가 있는데, 긴 컨텍스트에서 특정 정보를 정확히 찾는 능력을 측정하는 거다. 1M 토큰 기준으로 이전 세대 모델은 17% 정도였고, 지금 최고 모델도 76%다. 넣은 정보를 모델이 생각보다 잘 못 찾는 거다.

메일함에 100만 개 메일 넣어두고 하나 찾으라는 거랑 비슷한 거긴 하다.

그래서 나는 20k 정도로 유지한다. 이 정도면 거의 다 찾고, 응답도 깔끔하다. 크다고 좋은 게 아니라 딱 맞게 넣는 게 낫더라고.