LLM 소개

생성형 AI란, 주어진 입력 데이터를 바탕으로 새로운 데이터를 출력할 수 있는 능력을 가진 모델입니다.

텍스트, 이미지, 음악 등 다양한 타입의 데이터를 생성하고, 대규모 데이터 셋을 학습하여 구조화합니다.

생성형 AI의 주요 모델은 다음과 같습니다.

■ Chat GPT

GPT는 22년도 생성형 AI와 Large Language Model 에 Transformer 아키텍처 기반의 회귀언어 모델로 대량의 텍스트 데이터에서 다음 토큰을 예측하는 방식으로 사전훈련된 강화학습을 통해 만들어진 대화형 인공지능 챗봇이다.

위의 모델을 가지고 텍스트, 이미지, 음악 등 다양한 형태의 데이터를 생성할 수 있습니다.

transformer 아키택처란, Encoder-Decoder 구조의 아키텍처(2017 Vaswani)입니다.

** Encoder:입력된 문장을 받아서 그 의미를 압축된 벡터로 변환하는 것. (=입력을 이해한 것)

Ex) 안녕하세요 > [0.2, 0.8, 0.1, ... ]

** Decoder: 압축된 의미 벡터를 원하는 형태의 출력을 생성하는 것. (목적에 맞게 출력)

Ex) [0.2, 0.8, 0.1, ... ] > Hello

** Encoder (입력 이해) > 중간 표현으로 압축 > Decoder(목적에 맞게 출력)

Encoder-Decoder는 문서 요약이나 다양한 자연어 처리 기법에서 활용되고 이미지 처리, 시계열 처리에도 활용되고 있습니다.

■ LLM 모델 발전 형태

LLM 모델의 초기에는 Google 에서 제공하는 BERT 모델이 21년도까지 인기를 끌었습니다.

BERT는 Encoder 모델은 문장을 양방향으로 읽어서 문맥을 이해하는 모델입니다.

문맥을 완전히 이해하기 때문에 감정분석이나 문서분류등에 이해 분야에서 특화된 모델이였습니다.

GPT 는 Decoder만 사용하는 방식으로 문장을 읽는 방식이 왼쪽 > 오른쪽, 과거 > 미래이다.

그래서, 글쓰기, 대화, 번역, 코딩 등에서 활용하기 좋으며 최근에는 GPT 계열이 문맥을 생성하고 더 주목 받고 있다.

■ LLM의 Process

LLM의 작동방식은 크게 보면, 3단계를 거치게 됩니다.

STEP1. Prompt 입력

user가 모델에 질문이나 명령어를 입력합니다. 이 때, 명령어를 프롬프트라고 합니다.
Context Windows: 모델이 텍스트를 생성하거나 이해할 때 입력으로 받을 수 있는 양을 의미합니다.
- GPT-3.5: 16K
- GPT-4o: 128K
- LLama2-8b: 4K

STEP2. LLM

STEP3. 응답 생성

LLM은 Auto Regression 기법을 활용해 이전 단어들을 기반으로 다음 단어를 예측합니다. 이는 현재 토큰(단어)이 이전 모든 토큰들에 조건부 의존한다라는 의미를 가집니다.

또한, Sequential Generation 으로 텍스트를 왼쪽에서 오른쪽으로 순차적으로 다음 토큰을 결정합니다.

The 2025 SAS Hackathon has begun!