구글 Gemini

Genmini(제미나이)

주요 특징

Genmini vs GPT4

Genmini(제미나이)

•

구글에서 발표한 생성형 멀티모달 모델(2023년)

•

GPT4에서 제공하지 못했던 영상 데이터 입력 가능

◦

실시간으로 입력되고 있는 상황에 대해 음성으로 질의 시 영상 내용을 인지하고 답변 가능

◦

영상 인식은 각 프레임의 이미지 인식 뿐만 아니라 프레임 간의 연관 관계를 시계열적(time consistency)으로 추론하고 이해해야하므로 어려운 기술임

(참고)

•

이미지 내 객체 관련 질의 대응

◦

입력된 이미지 내 객체와 관련된 질의 시 이에 대한 응답 제공

◦

예) 이 두 털실로 만들 수 있는 뜨개질 아이디어 추천해줘

•

문서 이해 및 요약

◦

그래프와 텍스트가 포함된 문서를 이해하고 관련된 정보 검색 및 요약 정보 제공

◦

예) 이미지 + 이 차트에서 중요하게 드러난 정보를 알려주고 그 의미를 설명해줘. 그리고 여기에 나타난 모든 데이터를 마크다운 형식을 이용해서 표로 만들어줘

•

수학적/물리적 추론/이해

◦

문서 내 수식, 도표, 다이어그램을 이해하고 이에 기반하여 문제 해결

◦

예) 이미지 + 다음은 학생이 푼 물리 문제 풀이입니다. 다음 질문에 대해 단계별로 추론하여 답하세요. 학생은 정답을 맞추었습니까? 정답이 아니라면 틀린 이유를 설명하고 문제를 풀이하세요.

•

멀티모달 아웃풋 생성

◦

질의 사항에 대해 답변 시 이미지 예시가 필요하면 모델이 답변과 이에 연계된 이미지 생

◦

예) 딸의 생일 파티를 위한 아이디어를 알려줘. 딸은 동물과 자연을 좋아해

•

오디오 음성 정보 이해

◦

오디오를 텍스트 변환 없이 직접 이해하여 기존 speech to text 전환 시 유실되는 정보(발음, 뉘앙스, 발화자 구분, 성조 등)를 유지하여 답변에 활용 가능

◦

예) lunar january를 중국어로 발음하면 (발음1), (발음2)가 맞아? 그리고 정답인 발음에서 4성 중 첫번째 글자에 맞는 성조는 뭘까?

주요 특징

•

여러 모델을 연계한 멀티모달 모델과 달리 단일 모델로 다양한 형태의 입력을 이해하고 이에 적합한 복합적인 형태(예. 텍스트, 이미지, 텍스트+이미지)의 출력을 생성

◦

개별적으로 학습 모델을 연계하는 방식 대비 효율적이며 성능도 뛰어난 것으로 평가됨

◦

GPT4(Open AI)는 이미지 인식 모델, 음성인식 모델 및 이미지 생성 모델을 개별적으로 학습 후 언어 생성 모델인  GPT4와 연계한 방식

•

학습 데이터 및 인프라

◦

미공개

◦

4096개 TPUv4(A100 GPU급 성능)구성된 SuperPods 여러 개를 연결

◦

서로 다른 데이터 센터에 구축된 SuperPods를 빠르게 연결하기 위한 네트워크 기술 적용

•

성능 평가

◦

생성형 멀티모달 모델의 성능을 측정하는 32종의 벤치마크를 진행, 30종에서 GPT4대비 우세하다 언급

•

모델의 신뢰성 확보를 위해 기존 구글에서 제공 중인 인공지능 모델 대비 강화된 검증 절차 적용

◦

Genmini 모델의 편견/유해 데이터 제공과 같은 리스크 최소화를 위해 외부 전문가/파트너 조직들과 포괄적인 협력을 추진했다고 언급

Genmini vs GPT4

출시 모델

용도에 따라 최적화된 3종의 모델 제공

Genmini Ultra

•

복잡한 작업을 수행할 수 있는 고성능 모델(서버향)

•

일반 상용화 서비스 뿐만 아니라 대량의 데이터 연산, 과학 연구 분야에서도 활용 가능할 것으로 전망

•

현재는 신뢰성 제고를 위해 외부 인력을 활용한 검증 작업 및 자체 finetuning 작업을 진행 중이며 24년 초 공개 예정

•

구글은 23년 10월 발표한 미 행정명령 14110에 입각하여 Genmini Ultra의 테스트 결과를 미 정부와 공유하기로 약속했으며 이에 따라 더욱 엄격한 기준으로 테스트를 진행 중

Genmini Pro

•

광범위한 작업 수행이 가능한 commercial 모델(서버향)

•

상용화 검증이 완료된 수준의 모델로 다양한 구글 서비스와 연계 중

Genmini Nano

•

일부 기능(음성 요약, 메신저 응답 문구 생성 등)에만 특화하여 메모리 사용량을 최소화한 모델(온디바이스향)

•

Nano는 파라미터 크기가 상이한 2종(Nano1, Nano2)을 출시했으며 일부 성능 및 탑재 가능한 기능 제약이 있을 것으로 추정

서비스

챗봇

•

Genmini pro 기반의 특화 모델을 Bard에 탑재하여 챗봇 서비스 제공중

AlphaCode2

•

자연어 기반 코드 생성 서비스 AlphaCode2

Genmini Pro API

•

Genmini Nano를 Android의 On-device Foundation model로 제공하여 개발자들이 LoRA를 통해 Fine-tune하여 자체 모델을 개발할 수 있도록 제공

시사점

•

정체 중인 생성형 AI 시장에 Genmini를 조기에 출시하여 생성형 AI시장 선점 추진 의도

•

과감한 인력, 인프라 투자를 진행하여 기존 경쟁사들과의 격차 확대 뿐 아니라 진입 장벽을 높이는 전략 추진

•

조기 출시 강행으로 완성도가 미흡하여 실제 생성형 모델 시장 점유율 선점이 제한적일 것으로 전망

•

Genmini Nano의 NPU기반 안드로이드 단말에도 탑재를 허용 예정으로 향후 단말 내 On-device AI 적용 가속화 예상