본문 바로가기
🤖 AI/AI

🤖LLM - 대규모 언어 모델

by 정람지 2023. 9. 28.
 

대규모 언어 모델의 정의 그리고 생성형 AI와의 관계

2022년 11월 등장한 챗GPT(ChatGPT)는 기업과 소비자가 작업 자동화와 창의적인 아이디어 지원, 심지어 소프트웨어 코딩에까지 생성형

www.itworld.co.kr

🤖 대규모 언어 모델

일종의 컴퓨터 알고리즘인 LLM은 자연어 입력 내용을 처리하고 이미 나온 것을 기반으로 다음 단어를 예측

그 후에는 그 다음 단어를 예측하고 또 그 다음 단어를 예측하여 답변을 완성

<다음에 나올 단어를 예측하는 엔진>

 

+ 엄청난 분량의 데이터

 

 

+데이터 입출력 집합을 통해 학습된 머신러닝 신경 네트워크

+텍스트는 미분류 상태이며 모델은 자기지도 또는 준 지도학습 방법론을 사용할 때가 잦음

 

 

+백만 개, 수십억 개, 심지어 수조 개의 매개변수에 의해 제어

 

🤖 LLM 사용 예시

오픈AI의 GPT-3 및 4  

구글의 LaMDA와 PaLM LLM(바드의 기반)

허깅 페이스(Hugging Face)의 BLOOM 및 XLM-RoBERTa

엔비디아의 NeMO LLM, XLNet, Co:here, GLM-130B 등과 같은 오픈 모델

❗️오픈소스 LLM은 더 많은 맞춤 설정이 가능한 모델을 더 저렴한 비용으로 개발할 수 있어 화제

2월 메타의 LLaMA(대규모언어모델 메타 AI) 출시를 계기로 오픈소스 LLM을 바탕으로 한 개발 활동이 폭발적으로 늘어남
 
 

🤖 프롬프트 엔지니어링

프롬프트 엔지니어링 : LLM이 원하는 결과를 달성하도록 텍스트 프롬프트를 공들여 작성하고 최적화하는 과정

프롬프트 엔지니어: 비즈니스 용도에 맞게 맞춤 설정된 LLM 개발을 담당하게 될 것

최근에 생긴 초기 단계 기술

프롬프트 시장이 생겨나고 있음
 

 

🤖 LLM 발전 방향

오늘날, LLM 기반 챗봇이 가장 흔히 사용되는 방식 : '기본 설정 그대로' 사용되는 것

이미 입력된 대량의 데이터 때문에 정확성이 떨어질 가능성이 있음

허깅 페이스 공동 창업자 겸 CSO 토마스 울프 : “소규모 모델을 더 많은 데이터로 더 오래 학습시키면 과거에 대규모 모델이 수행하던 작업을 할 수 있다는 사실이 거듭 확인되고 있다. 소규모 모델에서 일어나는 현상에 대한 이해도 발전하고 있다고 생각한다”

 

LLM의 AI 및 컴퓨팅 성능을 소규모 데이터집합에 집중하면 막대한 비정형 데이터집합에 의존하는 거대한 LLM 이상의 성능을 발휘

사용자가 찾는 콘텐츠를 더욱 정확하게 생성할 수도 있고 학습 비용도 훨씬 더 저렴

 

희소 전문 모델
더 작은 LLM 모델의 개발 방법은 LLM의 학습 및 연산 비용을 줄일 것으로 예상되며 밀집 모델에 비해 정확도가 높은 거대한 모델이 생성될 것임

알레프 알파(Aleph Alpha), 데이터브릭스(Databricks), 픽시(Fixie), 라이트온(LightOn), 스태빌리티 AI(Stability AI), 오픈AI와 같은 기업은 더 작은 모델을 공개하고 있음.


 

LLM이란 무엇인가? - 정의, 원리, 주요 모델, 적용 사례

LLM (거대 언어 모델, Large Language Model) 은 딥 러닝 알고리즘과 통계 모델링을 통해 NLP 작업을 수행하는 데에 사용합니다. 최근 생성 AI의 가능성이 주목 받으면서, LLM의 시장성과 가치가 더욱 주목

www.thedatahunt.com