본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
🤖 AI/AI

🔬LLM 운영하기 : MLOps, LLMOps

by 정람지 2025. 2. 7.

LLM을 활용한 실전 AI 애플리케이션 개발

- 허정준


🧭 LLM 운영하기

LLM을 서비스 운영 환경에서 효과적으로 통합하고 관리하기 위한 LLMOps

 

MLOps 확장 -> LLMOps


🗃️ MLOps

DevOps

개발과 운영이 합쳐진 IT 문화 ( 협업 / 자동화 )

https://growthvalue.tistory.com/142

 

 

 

MLOps

DevOps의 ML판 확장자

출처 앨리스

DevOps + 데이터 + 머신 러닝

데이터 수집, 전처리, 모델 학습, 평가, 배포, 모니터링 등 머신러닝 프로젝트의 전 과정을 자동화하고 효율화

머신러닝 파이프라인

 

 

재현성 보장이 중요한 요소

 

재현성 reproducibility

이전의 ML 워크플로우 반복 시 나오는 모델이 동일한가?

 

- 버전 관리

- 입력값/파라미터 추적과 기록

성능 저하 시 자동 트리거 재학습과 배포 

 

데이터 준비 -> 모델 학습 -> 모델 저장 -> 모델 평가 (지속적 반복) -> 모델 배포 -> 모니터링 (성능 저하 시 데이터 준비 단계로 회귀 반복)

🥞 데이터 관리

데이터 버전

데이터 선택 / 전처리 방식 / 특성 공학

에 따라 달라지는 데이터

 

버전 관리를 위해 변경 사항 기록

 

도구

DVC ( Data Version Control )

 

Data Version Control · DVC

Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments.

dvc.org


🥞 실험 관리

여러 사람이 협업해서 사용 모델, 하이퍼파라미터 등을 바꿔가며 실험 시 관리 필요

 

도구

MLFlow

W&B 완디비


🥞 모델 저장소

개발 과정에서 생기는 여러 버전의 모델을 통합해 관리

 

- 전체 수명 주기를 추적/관리

- 모델 변경 이록을 관리하여 버전 관리

- 모델의 메타 데이터 ( 생성일, 성능 지표, 하이퍼파리미터, 등 )

- 모델을 서빙하고 배포하는 과정 자동화 가능

- 데이터 사이언티스트와 엔지니어 간 협업 촉진

 

도구

MLFlow 모델 저장소

AWS 세이지메이커 모델 저장소


🥞 모델 모니터링

지속적으로 의도한 대로 작동하는지 모니터링하기

 

- 엉뚱한 답을 반환한 것은 아닌지?

- 성능 저하가 발생하지 않았는지?

- CPU GPU 등 컴퓨터 자원에 문제는 없는지?

 

도구

프로메테우스

그라파나

AWS 세이지메이커 : 모델 모니터


🗃️ LLMOps

MLOps와 다른 점

 

- 실제 모델 서빙 사용보다 상업용 모델의 API 이용이 더 많아졌음

=> 분류나 회귀 같은 평가 지표보다 생성 관리가 더 중요해짐

 

- 하나의 일만 하는 ML과 달리 다양한 일을 처리할 수 있는 파운데이션 모델임


🥞 상업용 모델과 오픈소스 모델 선택하기

오픈소스 모델

: 직접 모델을 학습시킬 수 있음

- 인프라의 직접 관리 필요 / 가격..gpu

llama-3, Gemma-2, 미스트랄, 솔라

 

상업용 모델 

: 더 높은 성능의 모델 활용 가능

- 흠.. 돈이 많이 들어? 버전 변경에 따른 성능 바뀜?

GPT, Gemini, Claude, 하이퍼클로바X


🥞 모델 최적화 방법의 변화

모델 최적화 방법

- 사전 학습

- 미세 조정

- 프롬프트 엔지니어링

- 검색 증강 생성

 

 

사전 학습 :

LLM의 크기가 커 거의 수행하지 않음 ( 7B 학습에 한화 3억 가량)

 

미세 조정 :

이것도 모델 크기에 따라 좋은 GPU 필요.. (지도 미세 조정 / DPO + RoLA, QLoRA 등등 

 

프롬프트 : 

잘 쓰는 것으로 큰 향상이 가능

성능이 좋은 프롬프트 추적 도구 (완디비, ml플로우..

 

RAG :

굿


🥞 LLM 평가의 어려움...

ML은 비교적 정량적인 지표로 평가 가능

(한 가지 일만 함

- 정확도

- 재현율

- F1 점수

 

반면 LLM은 

위의 지표 사용도 어렵고

프롬프트에 따라 매번 답이 달라지는 등

정량적 평가가 어려움...

어캄..