본문 바로가기
짜잘IT

🥽 if(kakaoAI)2024 기록

by 정람지 2024. 10. 22.

 

if(kakaoAI)2024

모든 연결을 새롭게

if.kakao.com

 

if(kakaoAI)2024 기술 세션 찾아보기 (날짜별) - tech.kakao.com

10월 22일 부터 24일까지, 카카오의 연례 개발자 행사 ‘if(kakaoAI)...

tech.kakao.com


몇 주 전부터 판교에 쫙 깔려있던 광고!

디자인이 참 맘에 들었따..

아지트 앞에 셔틀 타는 곳

왜 있나 햇더니 목적지가 산골짜기다

스티커랑 가방 받았는데 스티커가 홀로그램이다.. 엄청 비쌌겠는뎅

카카오 AI 캠퍼스 도착

감각적인 건물이었다

비 안 왔으면 더더 예뻤을 텐데


🥽모든 연결을 새롭게 / Kanana

LED판이 엄청 크고

그라데이션 무빙이 멋져서

대기업의 향취가 물씬

세민언니 현혜언닝

왼쪽이 나

앞줄이랑 다 카부캠 사람들이었다 12명 만난 듯

애니매이션이랑 PPT 제작 현수막 제작 돈 얼마나 들어갔을까

정말 다양한 현수막과 영상물이 가득했다....

대표님 넘 멋있어용...

네이버에 클로바

업스테이지에 솔라

이제 카카오에 카나나

멋지잖아

멍뎅해 보이는 3D 캐릭터 

요즘 트렌드에 적합해 보임

귀엽네

이야.......


🥽밥/체험존

다른 사람들도 같이 찍었으면 좋았을 텐데여
가람온니

이뿌네

현혜온니

맛잇네

kanana

MLLM이 뭐지? sLLM도 아니고? 미들인가?

멀티모달이었다.

각 계열사별로 작은 부스들이 있었는데

시간 없어서 다 못 봤다ㅠ

모빌리티만 봄

여러 로봇들을 하나로 통합시켜 운영할 수 있는 시스템에 대해 설명해주셨는데 

위기 상황과 여러 케이스들을 해결하는 걸 실제로 보여주셧슴

개미같이 생긴 이 친구.

이름이 gaemi..!


🥽 놓침

카페에서 주문한 음료가 늦게 나와서 강의 놓침

이거 들으려고 했는데 만석...

다른 강의도 다 만석..

그냥 1층 구경..

제대로 못 찍었는데 밖 풍경이 수묵화처럼 신비

아파트


🥽 카카오 i 를 통한 AIOT 서비스의 사례와 미래

카카오i의 AIOT 플랫폼 구조와 현재 상태, 향후 방향, 그리고 개발 과정에서의 고민을 공유합니다. 사람과 사물이 경계 없이 연결되는 지능화된 사물인터넷(AIOT) 구현 방안을 설명합니다.

20분짜리 강의 들으러 총총

IoT! 에 ai를 합친 

kakao ai

내 ram좀 보게

CoT 체인 오브 터트 떳트? 따트 

원샷~ 퓨샷~

Multi-Agent Large Language Model)

여러 개의 LLM 또는 인공지능 에이전트들이 상호작용하며 특정 문제를 해결하거나 태스크를 수행하는 시스템

래그래그

 

피터씨가 강의에 감동을 받은 듯 보였다

AIOT 만들면 재밌을 것 같긴 하다


오아시스 발견!

귀엽네,,,


🥽이미지까지 이해하는 Multimodal LLM의 학습 방법 밝혀내기

GPT-4v, GPT-4o와 같은 멀티모달 LLM에 대한 관심이 급증하고 있습니다. 카카오는 자체 멀티모달 LLM을 개발하여 CVPR 2024에서 하이라이트 논문으로 선정되었습니다. 이 과정에서 얻은 인사이트와 노하우를 공유합니다.

체험존에서 찍었던 거!

이거 좀 닮게 잘 나오는 것 같다거

디퓨존 모델

점점 노이즈가 사라짐

텍스트 프롬프트에 알맞은 이미지 생성

 

카나나 비주얼 생성 모델

모델 구조 설명

데이터셋 설명

한 사진에 한 사람 SISI

데이터 전처리 설명

복사 붙여넣기 문제

단점 극복을 위한 새로운 데이터셋

시미 데이터셋

모델 성능 향상에 기여

데이터 모으기에 힘듦 -> 비디오 이용

우선 이미지 생성을 잘 하는 백본 모델 필요

한계점과 단점

사람 모양을 제대로 생성하지 못함

어떤 백본 모델을 쓰느냐에 따라 성능 차이 큼

백본 말고 ID 모듈 부분 학습

추가적인 손실 함수를 이용

정성/정량적 평가

얼굴의 닮은 정도를 평가하는 vgg 등등 기법

 글로벌 임베딩과 패치 임베딩(안 쓰명 그대로 사진 가져옴)

눈에 보이지 않는 워터마크!


오우!


🥽 AI Agent 기반 스마트 AI 마이 노트

Jira, Wiki 등의 업무 관리 시스템에서 정보를 추출하여 OKR 기반으로 성과 노트를 자동으로 작성해주는 사내 서비스를 개발했습니다. 이는 업무 효율성을 크게 향상시킨 스토리를 공유합니다.

 

강의실이 참 이뻐,,.

예은 언니랑도 마주쳐서 옆자리 앉앉

사내 해커톤 우승작이라고 한다

아이디어가 좋고 구현 완성도도 높아 보여서 우승할 만한 프로젝트였다고 생각이 들었믕

 

AI 에이전트(AI Agent)

주어진 환경에서 목표를 달성하기 위해 독립적으로 행동하는 인공지능 시스템을 의미

cot

prompt chaining

RAG

장기 기억 메모리!

지피티도 장기 기억 메모리가 생겨서..이제 데이터 생성할 때마다 내 이름 넣는다

무서울지도,.

코파일럿! 저 자동 그래프 생성이랑 변수 조절도 신기

우리가 직접 명령하지 않고 자연스럽게 우리를 도와주는~

연말평가 신기

언젠간 나도 하겟지

Action Appreciation Thanks (AAT)

주로 긍정적 피드백을 전달할 때 활용

행동(Action)을 인정하고, 그에 대한 감사(Appreciation)를 표현하며, 끝으로 감사(Thanks)의 말을 전달하는 방식

 

Situation-Behavior-Impact (SBI)

피드백을 명확하고 구체적으로 전달하기 위해 사용

상황(Situation), 행동(Behavior), 영향(Impact) 세 가지 요소를 기반으로 하며, 이를 통해 피드백을 받는 사람에게 명확한 맥락과 그 행동의 결과를 전달


아닛!

이동하다가 갑자기 슉 나타난 낯익은 사람

바로 gray 멘토님

삐용 반가웟음 

언니들이랑 듣고 싶은 거 다 달라서 혼자였단말임

밥두먹기루함ㅎㅎ최강E멘토님

공공데이터 RAG 들으려고 했지만

클린플랫폼으로 선회


🥽 FDS에 지속 성장하는 ML 적용 이야기

지속 성장하는 ML을 이상거래사기탐지에 적용한 경험을 공유합니다. 빠르게 변화하는 사고 트렌드에 대응하기 위한 모델 및 시스템 개발 내용을 설명합니다.

FDS "Fraud Detection System(사기 탐지 시스템)"

금융 및 전자 상거래 분야에서 주로 사용되는 시스템

FDS는 고객의 거래 패턴을 분석하고 비정상적이거나 의심스러운 활동을 실시간으로 탐지하여 사기 가능성을 판단하는 데 사용

새로운 유형의 사고에 대처하기 위해 자가 적응이 가능한 피처 개발

시스템 아키텍처...

어렵게 생겼잖아......

학생과 직장의 차이를 느껴

슬라이딩 윈도우를 통한 아이템별 사고 비율 비교

새로운 사고에도 대응할 수 있는 지속적 성장 ML~


뜨는 시간

바로 옆에 있던 애프터세션 방 기웃

강의 끝낸 분들이 여기 앉아계셔서 궁금한 거 물어볼 수 있슴

구경만 하고 도망!


🥽 AI 를 통해 스팸을 대응하는 카카오의 노력

LLM과 LMM(Language-and-Vision Model)을 활용하여 스팸 콘텐츠 분류의 효율성을 높이는 방법을 소개합니다. AI 기반 모니터링 및 라벨링 시스템이 콘텐츠 검수자의 판단을 어떻게 지원하는지 설명합니다.

듀얼 코딩 이론(Dual Coding Theory)

인간의 인지 과정에서 정보를 처리하는 두 가지 주요 경로가 있다고 설명

사람들은 정보를 언어적(Verbal)과 비언어적(Non-verbal, 시각적)인 두 가지 방식으로 처리

이 두 경로가 서로 독립적이지만 상호 보완적으로 작용하여 학습을 강화

인지 심리학을 이용한 라벨링 개선

새로운 신조어나 은어, 맥락에 따른 단어의 차이 구분하기

인간보다 훨씬 윤리적 규범이 빡빡한 AI

데이터 균형!

- 데이터 증식

- 샘플링 (언더샘플링 오버샘플링)

+ 가중 손실 함수 

+ 평가 기준 정의


🥽 LLM으로 음성인식 성능 개선하기

카카오는 LLM(Large Language Model)을 E2E 음성인식기에 적용하여 성능을 크게 향상시켰습니다. 하지만 디코딩 속도 저하 문제에 직면하였으며, 이를 해결하기 위해 LLM 디코더의 언어 능력을 E2E 음성인식기로 전이시켜 연산량은 유지하면서 인식률을 높이는 방법을 개발한 스토리를 공유합니다.

End-to-end 음성인식 시스템

전통적인 음성인식 방식과는 다르게, 음성 신호에서 직접적으로 텍스트를 출력하는 하나의 통합된 모델

별도의 모듈 없이 하나의 모델에서 음성 입력을 받아 텍스트로 변환하는 과정 전체

지식 증류(Knowledge Distillation)

큰 모델(교사 모델, Teacher Model)의 지식을 작은 모델(학생 모델, Student Model)로 전달하는 방법

주로 딥러닝에서 대형 모델의 성능을 유지하면서도 경량화된 모델을 얻기 위해 사용

큰 모델이 학습한 복잡한 표현을 작은 모델이 학습하도록 돕는 과정으로, 경량 모델이 효율적으로 동작할 수 있게 함

 

트랜스포머 모델

어텐션 메커니즘(Attention Mechanism) 을 통해 입력 데이터를 병렬적으로 처리

 

인코더(Encoder):

  • 입력 시퀀스(예: 문장)를 받아서 내부 표현으로 변환하는 역할

디코더(Decoder):

  • 인코더로부터 전달된 정보와 함께 목표 텍스트(예: 번역된 문장)를 생성
  • 이전에 생성된 단어들과 인코더로부터 받은 정보를 함께 사용하여 다음 단어를 예측

마지막 강의에서 만난 혜현언니랑 토비랑

셔틀 타고 판교 회귀


판교 온 김에 카부캠장으로 와서 후기 쓰기

손목띠보여주는것

손목보고잇는게아니라 모니터보고찍는거임

굿.

 

 

https://www.youtube.com/watch?v=lnLMvpGi4AY

이욜 나다