🍹 (주) 강의 주제/✏️ AI 시대, 개발자와 같은 언어로 기획하는 PM 과정

5강. 토큰, 컨텍스트, 비용, 지연시간

🤔 Question

👉 “이 AI 기능 왜 이렇게 비싸요?”
“답변 하나 나오는데 왜 이렇게 느려요?”

AI 프로젝트에서 PM이 가장 자주 받는 질문이다. 그리고 이 질문의 답은 대부분 토큰, 컨텍스트, 비용, 지연시간에 숨어 있다.

🎯 토큰(Token)이란 무엇인가

👉 토큰은 LLM이 텍스트를 처리하는 최소 단위다.

사람이 보는 “문장”과 달리, 모델은 문장을 잘게 쪼개 숫자 단위로 계산한다.

중요한 점은 이것이다.

- 입력이 길수록 토큰이 늘어나고
- 출력이 길수록 토큰이 늘어나며
- 토큰이 늘수록 비용과 시간이 함께 증가한다

즉, “말을 많이 하게 하는 AI”는 구조적으로 비싸고 느릴 수밖에 없다.

🎯 컨텍스트(Context)의 함정

👉 컨텍스트는 모델이 “지금 판단할 때 참고하는 정보 전체”다.

대화 기록, 검색 결과, 시스템 프롬프트, 모두 컨텍스트에 포함된다.

문제는 컨텍스트가 무한하지 않다는 점이다.

- 길어지면 앞부분이 잘리고
- 잘리면 판단 근거가 사라지고
- 결과가 흔들린다

PM이 “모든 정보를 다 넣어주세요”라고 말하는 순간, 비용·속도·품질이 동시에 무너질 수 있다.

🎯 비용은 어디서 발생하는가

👉 AI 비용은 대부분 “모델 호출 순간”에 발생한다.

특히 다음이 비용을 폭발시킨다.

- 긴 입력 + 긴 출력
- 불필요한 재시도
- 모든 요청을 무조건 LLM으로 보내는 구조

그래서 실무에서는 “모델을 덜 쓰는 구조”가 곧 좋은 아키텍처다.

검색, 캐시, 규칙 처리로 모델 호출 횟수를 줄이는 것이 PM이 반드시 설계해야 할 영역이다.

🎯 지연시간(Latency)은 왜 길어지는가

👉 AI 응답이 느린 이유는 단순히 “모델이 느려서”가 아니다.

실제 지연시간은 다음이 합쳐진 결과다.

- 검색 시간
- 컨텍스트 구성 시간
- 모델 추론 시간
- 후처리 시간

PM이 화면만 보고 판단하면 “왜 이렇게 느리죠?”밖에 남지 않는다.

하지만 파이프라인을 이해하면 “어디를 줄여야 하는지”가 보인다.

☔ 정리

👉 토큰과 컨텍스트는 AI 서비스의 비용과 속도를 결정하는 핵심 변수다.

PM이 이 개념을 이해하면, “이 기능 왜 비싸요?” “왜 이렇게 느려요?” 같은 질문에 명확히 답할 수 있다.

If I was of any help to you, please buy me coffee 😿😢😥

If you have any questions, please leave them in the comments

Buy me a coffee

▶ Youtube Sub

🧭 References

[1] reference : https://doctorson0309.tistory.com/

[2] Ads : https://apps.apple.com/us/app/beluga-classic-film-filters/id6744041061

저작자표시 비영리 변경금지 (새창열림)

'🍹 (주) 강의 주제 > ✏️ AI 시대, 개발자와 같은 언어로 기획하는 PM 과정' 카테고리의 다른 글

7강. AI 서비스의 진짜 데이터는 ‘대화 로그' 입니다 (0)	2026.01.16
6강. RAG, 임베딩, 벡터 검색을 PM 언어로 해석하기 (0)	2026.01.15
4강. AI 서비스에 반드시 존재하는 4개의 서버 (0)	2026.01.15
3강. ChatGPT도 사실은 백엔드 시스템이다 (0)	2026.01.15
2강. 「“AI 기능”이라는 말이 위험한 이유」 (0)	2026.01.15

Contents

새소식

인기 검색어