GPT4o

멀티모달 생성형 AI

•

멀티모달 AI는 텍스트, 이미지, 오디오 등의 여러 유형의 데이터를 처리할 수 있는 AI

•

 GPT4o(OpenAI), Gemini(Google)

•

OpenAI의 최신 AI 모델(2024년 5월 발표)로, 텍스트, 이미지, 오디오를 모두 이해하고 생성할 수 있는 멀티모달 AI

•

기존의 GPT-4 수준의 성능을 유지하면서 더 빠르고 저렴함

•

RLHF(Reinforcement Learning from Human Feedback): 인간 피드백을 통한 강화학습으로 원하는 대화에 최적화

•

GPT-4는 텍스트 기반인 반면, GPT4o는 텍스트, 이미지, 오디오 모두를 처리할 수 있음

•

속도와 비용 면에서 GPT4o가 더 우수

•

속도:  매우 빠름(평균 응답 시간 0.32초)

•

성능: 

◦

영어: 텍스트와 코드에서 GPT-4와 동등한 성능

◦

비영어: 텍스트, 이미지, 오디오 벤치마크에서 더 뛰어남

•

효율성: 새로운 토크나이저 덕분에 복잡한 프롬프트와 언어 번역이 더 효율적임

◦

(참고) 토크나이저

▪

토크나이저는 텍스트를 모델이 처리할 수 있는 단위로 분할하는 역할

▪

효율적인 토크나이저는 텍스트를 더 작은 수의 토큰으로 분할하여 모델이 더 적은 계산 자원을 사용하면서도 더 정확하게 텍스트를 이해하고 생성할 수 있게 함

◦

GPT-4o는 최대 128k의 컨텍스트 길이를 처리할 수 있어 복잡한 프롬프트나 긴 대화에서도 일관성을 유지할 수 있음

◦

비영어권 텍스트를 더 잘 이해하고, 더 적은 토큰으로 번역할 수 있어 번역 효율성이 크게 향상됨

•

GPT4o는 GPT-4에 비해 50% 더 저렴하며, 무료 ChatGPT 사용자도 사용할 수 있음

•

입력 토큰: 백만 토큰당 $5

•

출력 토큰: 백만 토큰당 $15

◦

백만 토큰: 한국어 텍스트로 대략 75만 단어, 약 37,500 문장(약 3000 페이지 분량의 텍스트)에 해당하는 분량

•

모바일: 모바일 앱에서 GPT4o를 통해 텍스트, 이미지, 오디오로 상호작용할 수 있음

•

PC: 웹 인터페이스를 통해 다양한 입력 형식을 지원