🤔 Question
👉 “이 AI 기능 왜 이렇게 비싸요?”
“답변 하나 나오는데 왜 이렇게 느려요?”
AI 프로젝트에서 PM이 가장 자주 받는 질문이다.
그리고 이 질문의 답은 대부분
토큰, 컨텍스트, 비용, 지연시간에 숨어 있다.
🎯 토큰(Token)이란 무엇인가
👉 토큰은 LLM이 텍스트를 처리하는 최소 단위다.
사람이 보는 “문장”과 달리,
모델은 문장을 잘게 쪼개 숫자 단위로 계산한다.
중요한 점은 이것이다.
- 입력이 길수록 토큰이 늘어나고
- 출력이 길수록 토큰이 늘어나며
- 토큰이 늘수록 비용과 시간이 함께 증가한다
즉, “말을 많이 하게 하는 AI”는
구조적으로 비싸고 느릴 수밖에 없다.
🎯 컨텍스트(Context)의 함정
👉 컨텍스트는 모델이 “지금 판단할 때 참고하는 정보 전체”다.
대화 기록, 검색 결과, 시스템 프롬프트,
모두 컨텍스트에 포함된다.
문제는 컨텍스트가 무한하지 않다는 점이다.
- 길어지면 앞부분이 잘리고
- 잘리면 판단 근거가 사라지고
- 결과가 흔들린다
PM이 “모든 정보를 다 넣어주세요”라고 말하는 순간,
비용·속도·품질이 동시에 무너질 수 있다.
🎯 비용은 어디서 발생하는가
👉 AI 비용은 대부분 “모델 호출 순간”에 발생한다.
특히 다음이 비용을 폭발시킨다.
- 긴 입력 + 긴 출력
- 불필요한 재시도
- 모든 요청을 무조건 LLM으로 보내는 구조
그래서 실무에서는
“모델을 덜 쓰는 구조”가 곧 좋은 아키텍처다.
검색, 캐시, 규칙 처리로
모델 호출 횟수를 줄이는 것이
PM이 반드시 설계해야 할 영역이다.
🎯 지연시간(Latency)은 왜 길어지는가
👉 AI 응답이 느린 이유는 단순히 “모델이 느려서”가 아니다.
실제 지연시간은 다음이 합쳐진 결과다.
- 검색 시간
- 컨텍스트 구성 시간
- 모델 추론 시간
- 후처리 시간
PM이 화면만 보고 판단하면
“왜 이렇게 느리죠?”밖에 남지 않는다.
하지만 파이프라인을 이해하면
“어디를 줄여야 하는지”가 보인다.
☔ 정리
👉 토큰과 컨텍스트는
AI 서비스의 비용과 속도를 결정하는 핵심 변수다.
PM이 이 개념을 이해하면,
“이 기능 왜 비싸요?”
“왜 이렇게 느려요?”
같은 질문에 명확히 답할 수 있다.
If I was of any help to you, please buy me coffee 😿😢😥
If you have any questions, please leave them in the comments
[2] Ads :
https://apps.apple.com/us/app/beluga-classic-film-filters/id6744041061