Search

구글 Gemini

Genmini(제미나이)

구글에서 발표한 생성형 멀티모달 모델(2023년)
GPT4에서 제공하지 못했던 영상 데이터 입력 가능
실시간으로 입력되고 있는 상황에 대해 음성으로 질의 시 영상 내용을 인지하고 답변 가능
영상 인식은 각 프레임의 이미지 인식 뿐만 아니라 프레임 간의 연관 관계를 시계열적(time consistency)으로 추론하고 이해해야하므로 어려운 기술임
(참고)
이미지 내 객체 관련 질의 대응
입력된 이미지 내 객체와 관련된 질의 시 이에 대한 응답 제공
예) 이 두 털실로 만들 수 있는 뜨개질 아이디어 추천해줘
문서 이해 및 요약
그래프와 텍스트가 포함된 문서를 이해하고 관련된 정보 검색 및 요약 정보 제공
예) 이미지 + 이 차트에서 중요하게 드러난 정보를 알려주고 그 의미를 설명해줘. 그리고 여기에 나타난 모든 데이터를 마크다운 형식을 이용해서 표로 만들어줘
수학적/물리적 추론/이해
문서 내 수식, 도표, 다이어그램을 이해하고 이에 기반하여 문제 해결
예) 이미지 + 다음은 학생이 푼 물리 문제 풀이입니다. 다음 질문에 대해 단계별로 추론하여 답하세요. 학생은 정답을 맞추었습니까? 정답이 아니라면 틀린 이유를 설명하고 문제를 풀이하세요.
멀티모달 아웃풋 생성
질의 사항에 대해 답변 시 이미지 예시가 필요하면 모델이 답변과 이에 연계된 이미지 생
예) 딸의 생일 파티를 위한 아이디어를 알려줘. 딸은 동물과 자연을 좋아해
오디오 음성 정보 이해
오디오를 텍스트 변환 없이 직접 이해하여 기존 speech to text 전환 시 유실되는 정보(발음, 뉘앙스, 발화자 구분, 성조 등)를 유지하여 답변에 활용 가능
예) lunar january를 중국어로 발음하면 (발음1), (발음2)가 맞아? 그리고 정답인 발음에서 4성 중 첫번째 글자에 맞는 성조는 뭘까?

주요 특징

여러 모델을 연계한 멀티모달 모델과 달리 단일 모델로 다양한 형태의 입력을 이해하고 이에 적합한 복합적인 형태(예. 텍스트, 이미지, 텍스트+이미지)의 출력을 생성
개별적으로 학습 모델을 연계하는 방식 대비 효율적이며 성능도 뛰어난 것으로 평가됨
GPT4(Open AI)는 이미지 인식 모델, 음성인식 모델 및 이미지 생성 모델을 개별적으로 학습 후 언어 생성 모델인 GPT4와 연계한 방식
학습 데이터 및 인프라
미공개
4096개 TPUv4(A100 GPU급 성능)구성된 SuperPods 여러 개를 연결
서로 다른 데이터 센터에 구축된 SuperPods를 빠르게 연결하기 위한 네트워크 기술 적용
성능 평가
생성형 멀티모달 모델의 성능을 측정하는 32종의 벤치마크를 진행, 30종에서 GPT4대비 우세하다 언급
모델의 신뢰성 확보를 위해 기존 구글에서 제공 중인 인공지능 모델 대비 강화된 검증 절차 적용
Genmini 모델의 편견/유해 데이터 제공과 같은 리스크 최소화를 위해 외부 전문가/파트너 조직들과 포괄적인 협력을 추진했다고 언급

Genmini vs GPT4

출시 모델

용도에 따라 최적화된 3종의 모델 제공

Genmini Ultra

복잡한 작업을 수행할 수 있는 고성능 모델(서버향)
일반 상용화 서비스 뿐만 아니라 대량의 데이터 연산, 과학 연구 분야에서도 활용 가능할 것으로 전망
현재는 신뢰성 제고를 위해 외부 인력을 활용한 검증 작업 및 자체 finetuning 작업을 진행 중이며 24년 초 공개 예정
구글은 23년 10월 발표한 미 행정명령 14110에 입각하여 Genmini Ultra의 테스트 결과를 미 정부와 공유하기로 약속했으며 이에 따라 더욱 엄격한 기준으로 테스트를 진행 중

Genmini Pro

광범위한 작업 수행이 가능한 commercial 모델(서버향)
상용화 검증이 완료된 수준의 모델로 다양한 구글 서비스와 연계 중

Genmini Nano

일부 기능(음성 요약, 메신저 응답 문구 생성 등)에만 특화하여 메모리 사용량을 최소화한 모델(온디바이스향)
Nano는 파라미터 크기가 상이한 2종(Nano1, Nano2)을 출시했으며 일부 성능 및 탑재 가능한 기능 제약이 있을 것으로 추정

서비스

챗봇

Genmini pro 기반의 특화 모델을 Bard에 탑재하여 챗봇 서비스 제공중

AlphaCode2

자연어 기반 코드 생성 서비스 AlphaCode2

Genmini Pro API

Genmini Nano를 Android의 On-device Foundation model로 제공하여 개발자들이 LoRA를 통해 Fine-tune하여 자체 모델을 개발할 수 있도록 제공

시사점

정체 중인 생성형 AI 시장에 Genmini를 조기에 출시하여 생성형 AI시장 선점 추진 의도
과감한 인력, 인프라 투자를 진행하여 기존 경쟁사들과의 격차 확대 뿐 아니라 진입 장벽을 높이는 전략 추진
조기 출시 강행으로 완성도가 미흡하여 실제 생성형 모델 시장 점유율 선점이 제한적일 것으로 전망
Genmini Nano의 NPU기반 안드로이드 단말에도 탑재를 허용 예정으로 향후 단말 내 On-device AI 적용 가속화 예상