새소식

🍹 (주) 강의 주제/✏️ AI 시대, 개발자와 같은 언어로 기획하는 PM 과정

5강. 토큰, 컨텍스트, 비용, 지연시간

728x90

🤔 Question

👉 “이 AI 기능 왜 이렇게 비싸요?”
“답변 하나 나오는데 왜 이렇게 느려요?”

AI 프로젝트에서 PM이 가장 자주 받는 질문이다. 그리고 이 질문의 답은 대부분 토큰, 컨텍스트, 비용, 지연시간에 숨어 있다.

 

🎯 토큰(Token)이란 무엇인가

👉 토큰은 LLM이 텍스트를 처리하는 최소 단위다.

사람이 보는 “문장”과 달리, 모델은 문장을 잘게 쪼개 숫자 단위로 계산한다.

중요한 점은 이것이다.

- 입력이 길수록 토큰이 늘어나고
- 출력이 길수록 토큰이 늘어나며
- 토큰이 늘수록 비용과 시간이 함께 증가한다

즉, “말을 많이 하게 하는 AI”는 구조적으로 비싸고 느릴 수밖에 없다.

 

🎯 컨텍스트(Context)의 함정

👉 컨텍스트는 모델이 “지금 판단할 때 참고하는 정보 전체”다.

대화 기록, 검색 결과, 시스템 프롬프트, 모두 컨텍스트에 포함된다.

문제는 컨텍스트가 무한하지 않다는 점이다.

- 길어지면 앞부분이 잘리고
- 잘리면 판단 근거가 사라지고
- 결과가 흔들린다

PM이 “모든 정보를 다 넣어주세요”라고 말하는 순간, 비용·속도·품질이 동시에 무너질 수 있다.

 

🎯 비용은 어디서 발생하는가

👉 AI 비용은 대부분 “모델 호출 순간”에 발생한다.

특히 다음이 비용을 폭발시킨다.

- 긴 입력 + 긴 출력
- 불필요한 재시도
- 모든 요청을 무조건 LLM으로 보내는 구조

그래서 실무에서는 “모델을 덜 쓰는 구조”가 곧 좋은 아키텍처다.

검색, 캐시, 규칙 처리로 모델 호출 횟수를 줄이는 것이 PM이 반드시 설계해야 할 영역이다.

 

🎯 지연시간(Latency)은 왜 길어지는가

👉 AI 응답이 느린 이유는 단순히 “모델이 느려서”가 아니다.

실제 지연시간은 다음이 합쳐진 결과다.

- 검색 시간
- 컨텍스트 구성 시간
- 모델 추론 시간
- 후처리 시간

PM이 화면만 보고 판단하면 “왜 이렇게 느리죠?”밖에 남지 않는다.

하지만 파이프라인을 이해하면 “어디를 줄여야 하는지”가 보인다.

 

정리

👉 토큰과 컨텍스트는 AI 서비스의 비용과 속도를 결정하는 핵심 변수다.

PM이 이 개념을 이해하면, “이 기능 왜 비싸요?” “왜 이렇게 느려요?” 같은 질문에 명확히 답할 수 있다.

 

If I was of any help to you, please buy me coffee 😿😢😥

If you have any questions, please leave them in the comments

🧭 References

[1] reference : https://doctorson0309.tistory.com/

[2] Ads : https://apps.apple.com/us/app/beluga-classic-film-filters/id6744041061

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.