서론

AI가 Token으로 요금을 계산한다고 들었나요?
- 이게 사용하기에 많은 Token이 소모되죠.
- 컴퓨터가 하루 종일 안 꺼져 있었다면 많은 Token이 소모되었을 텐데, 마치 집값이 날아간 것 같지 않나요?
왜 Token으로 요금을 계산하나요?
- Token이 양방향 요금제라고 들었어요.
- AI에게 질문하면 요금이 부과되고, 답변하기에도 요금이 필요하다니, 좀 과하지 않나요?
- 그러니 AI가 헛소리하는 거 아닐까요!
Token은 단어인가요, 문자인가요?
- 한자는 어떻게 요금이 계산되나요?
- 아랍어는 어떻게 되나요?
기업의 정보화 과정에서 Token은 어떤 다른 의미를 가질까요?
- 전통적인 정보화는 구조를 만들고 데이터베이스를 다루는 정도였죠.
- AI의 적용에서 왜 Token 문제가 발생하나요?

이 글에서는 우리가 자주 듣는 Token이 과연 무엇인지, 여러 관점에서 답해보려 합니다. 글이 길지만, 천천히 읽어보세요.

컴퓨터 발전의 역사 속에는 자주 눈길을 끄는 용어들이 등장하고, 그 후 일반 사람들의 생활에 침투하게 되어 굳어지게 됩니다. 프롬프트(Prompt)라는 단어가 좋은 예시이고, Token도 마찬가지죠. 현재로서는 Token이 어쩌면 세상을 넘어서기도 했습니다.
그럼 Token은 OpenAI에서 처음 제안했는데, 여러 업체들이 이 요금 방식이 정말 좋다고 생각하기 때문일까요? 아니면 다른 이유가 있을까요?
먼저 그 기원에 대해 살펴보죠.

기업 환경에서 AI 기술을 통해 비용 절감 및 효율성을 높이는 데 Token에 대한 이해는 기업 내 AI의 실질적인 활용을 돕습니다. 간단히 말하면 Token은 레고 블록과 같아 우리가 필요한 어플리케이션을 구축하여 효율을 향상시킵니다.

Token 기초

Token 기본 개념

우선 OpenAI 공식 사이트에서 Token에 대한 설명을 살펴봅시다:

1 token ~= 4개의 영어 문자
1 token ~= ¾ 단어
100 tokens ~= 75 단어
또는
1-2개의 문장 ~= 30 tokens
1 문단 ~= 100 tokens
1,500 단어 ~= 2048 tokens

여기까지 보고 어떠세요? 헷갈리시나요? 이게 마치 공익이 몇 가지 방법으로 쓸 수 있는지와 같은게 아닌가요? 그럼, 좀 더 감을 잡아봅시다:

Learning AI Meticulously, Sharing Knowledge Joyfully

이 문장에 Token이 몇 개일까요? 6개 단어니까 6개의 Token이라고요? 아쉽게도, 그렇지 않아요!

ChatGPT 4에서는 10개의 Token으로 표시됩니다. 색깔 블록을 보면 구두점은 별도로 계산되며, Joyfully는 Joy와 fully로 나뉘었습니다.

코드에서 대화로: Token을 도입할 필요성

컴퓨터의 핵심 언어는 0과 1로 구성된 이진 코드입니다. 이는 모든 프로그램과 데이터의 가장 기본적인 표현 방식입니다. 우리가 사용하는 Python, Java와 같은 고급 프로그래밍 언어든, 이미지와 비디오와 같은 다양한 멀티미디어 파일이든 모두 이런 기계 언어로 변환됩니다. 전통적으로 컴퓨터 과학에서는 전문가들이 현실 세계의 복잡성을 최대한 추상화하여, 문자열(문자들의 집합)과 정수(숫자)와 같은 명확한 데이터 타입을 정의하여 정보를 처리해왔습니다. 이런 방법은 수학 계산이나 데이터베이스 쿼리 같은 구조적 데이터 처리에 매우 효과적입니다.

하지만 기술이 발전하고 사람들의 수요가 높아짐에 따라, 우리는 컴퓨터가 숫자와 코드를 처리하는 것뿐만 아니라 자연어, 즉 인류의 일상 언어를 이해하고 처리하길 원하게 되었습니다. 이를 위해 자연어 처리(NLP, Natural Language Processing)의 영역이 도입되었습니다. 이는 컴퓨터가 인간의 언어를 이해하고 해석하며 생성할 수 있도록 하는 기술입니다.

자연어의 특성을 고려할 때, 그 다채로움, 문맥 의존성 및 모호성을 감안하면, 이제 우리는 단순한 1+1=2와 같은 질문을 해결하려는 것이 아닙니다. 이제 우리가 해결해야 할 것은 컴퓨터가 “오늘은 금요일, 주말에는 어디로 가지?”와 같은 문장을 이해하고, 감정을 분석하거나 다른 언어로 번역하는 것입니다. 이런 상황에서 전통적인 데이터 타입은 더 이상 충분하지 않습니다.

이제 우리는 Token의 개념을 도입해야 합니다. Token화는 복잡한 텍스트 데이터를 더 작고 컴퓨터가 처리가 쉬운 단위로 분해하는 과정입니다. 즉, 단어, 구 또는 구두점과 같은 것입니다. 이렇게 하면 컴퓨터는 언어 처리를 더 효과적으로 수행하고 텍스트에서 의미를 추출할 수 있습니다. 단순히 문자 수를 계산하는 것이 아닙니다.

확정성에서 모호성으로: 전통적인 프로그래밍은 명확하고 예측 가능한 데이터를 처리하는 반면, NLP는 다의어나 문맥에 따라 달라지는 언어를 해석하는 것입니다.

구조화에서 비구조화로: 구조화된 데이터베이스나 알고리즘 대신, NLP는 유연하고 자유로운 형태의 자연어 텍스트를 처리합니다.

Token은 무엇인가요? 왜 텍스트를 Token으로 변환해야 하나요?

상상해보세요. 생성적 AI에서 매우 전형적인 응용 시나리오는 빠른 요약입니다. 우리는 한 문장, 한 문장을 따지지 않고도 중요한 정보를 빠르게 이해할 수 있습니다. 이 과정에서 Token은 컴퓨터가 대량의 텍스트를 ‘이해’하고 처리하는 데 중요한 역할을 합니다.

Token은 무엇인가요?

자연어 처리에서 Token은 일반적으로 텍스트 내의 의미 있는 조각을 가리킵니다. 이러한 조각은 단어, 구 또는 구두점이 될 수 있습니다. 위의 예와 같습니다.

왜 Token으로 변환하나요?

텍스트를 Token으로 변환하는 것은 복잡한 비즈니스 보고서를 핵심 부분으로 나누거나 이메일 내용을 요점으로 나누는 것과 같습니다. 이러한 분해는 컴퓨터가 언어를 보다 효과적으로 처리하고 분석하도록 하여, 검색, 자동 번역 또는 감정 분석과 같은 작업을 수행할 수 있게 합니다.

예를 들어, 어떤 사람이 메이투안(Meituan)에서 체인점을 열고 고객 피드백을 분석하여 제품을 개선하고 싶어한다고 가정해봅시다. 피드백 내용을 Token으로 분해하면, 일반적인 문제나 부정적인 평점을 식별하는 데 도움을 줄 수 있습니다.

Token은 단어와 같아 보이지만, 실제 상황은 어떨까요?

Token과 문자, 단어의 차이점과 관계.

	정의	특징	예시
문자	텍스트를 구성하는 기본 요소`	반드시 독립적으로 완전한 의미를 표현하지 않으며, 다른 문자들과 조합하여 어휘를 이룰 수 있다.	happy
단어	문자가 구성되어 일정한 의미를 표현하는 단위	정보 전달의 기본 단위로, 단일 문자보다 더 풍부한 정보를 전달한다.	I’m happy
Token	일반적으로 단어에 해당하지만 더 유동적이며, 구, 구두점, 어근, 접두사 등일 수 있다.	Token의 정의는 그 목적에 따라 달라진다; 예를 들어, 텍스트 분석, 기계 번역 등에서.	`I`, `'m`, `happy`

여기까지 오면, 우리는 상당 부분 언어 본연에 대한 사람들의 이해에 의존한다는 것을 느낄 수 있습니다.

문자, 단어, Token은 기술적으로 다를 수 있지만, 텍스트 처리에서는 밀접한 관계를 가지고 있습니다. 문자는 단어를 구성하는 기본 요소이며, 단어는 Token의 요소를 형성합니다. 실제 응용에서는 Token의 인식과 사용이 문자와 단어에 대한 이해에 의존합니다.

예를 들어, 시장 추세에 관련된 보고서를 분석할 경우, Token화 과정을 통해 우리는 ‘성장’, ‘위험’, ‘기회’와 같은 키워드를 신속하게 식별하여 경영진이 보고서의 핵심 내용을 파악하는 데 도움을 줄 수 있습니다.

전반적으로 Token은 컴퓨터가 텍스트를 처리하고 ‘이해’하는 데 도움을 주는 방법이며, 이는 텍스트의 자동화된 처리를 가능하게 하고, 기업이 데이터 기반 의사 결정 과정에서 언어 정보를 더 효과적으로 사용할 수 있도록 지원합니다.

그렇다면 Token은 어떻게 생성되고 처리될까요? 이는 전통적인 프로그래밍 사고 방식에서 한 발짝 나아가야 할 문제입니다.

Token 생성 및 처리

Token은 어떻게 생성되나요? 텍스트를 Token으로 변환하는 구체적인 과정.

  graph LR
  A[텍스트 처리 과정]
  A1[전처리]
  A2[분할]
  A3[Token화]
  A4[후처리]

  A --> A1
  A --> A2
  A --> A3
  A --> A4

  A1 --> B1[무관한 문자 제거]
  B1 --> B1a[예: 웹 코드]
  
  A1 --> B2[텍스트 표준화]
  B2 --> B2a[대소문자 통일]
  B2 --> B2b[번체와 간체 변환]

  A1 --> B3[불용어 제거]
  B3 --> B3a[예: "의", "了" 등]

  A2 --> C1[영어 분할]
  C1 --> C1a[공백과 구두점을 기반으로]

  A2 --> C2[중국어 분할]
  C2 --> C2a[알고리즘에 의한 단어 경계 인식]

  A3 --> D1[어휘 병합]
  D1 --> D1a[예: 고유명사 "뉴욕"]
  D1 --> D2[구 또는 고정구 인식]
  D1 --> D3[구두점은 독립 Token으로 간주]

  A4 --> E1[품사 태깅]
  A4 --> E2[의미 역할 태깅]

다양한 모델에서 처리하는 방식은 다를 수 있으며, 이해를 돕기 위해 몇 가지 단계를 제시했습니다. 기업 정보화에서 데이터 가치의 우선 순위와 데이터 처리 비용을 고려하여 적절한 평가를 하는 것이 중요합니다.

예를 들어,