Search

GPT4o

멀티모달 생성형 AI

멀티모달 AI는 텍스트, 이미지, 오디오 등의 여러 유형의 데이터를 처리할 수 있는 AI
GPT4o(OpenAI), Gemini(Google)

GPT4o란?

OpenAI의 최신 AI 모델(2024년 5월 발표)로, 텍스트, 이미지, 오디오를 모두 이해하고 생성할 수 있는 멀티모달 AI
기존의 GPT-4 수준의 성능을 유지하면서 더 빠르고 저렴함
RLHF(Reinforcement Learning from Human Feedback): 인간 피드백을 통한 강화학습으로 원하는 대화에 최적화

GPT4 vs GPT4o

GPT-4는 텍스트 기반인 반면, GPT4o는 텍스트, 이미지, 오디오 모두를 처리할 수 있음
속도와 비용 면에서 GPT4o가 더 우수
관점
GPT-4
GPT-4o
모달리티
텍스트 기반
텍스트, 이미지, 오디오 지원
성능
고성능 텍스트 생성
텍스트, 이미지, 오디오에서 뛰어난 성능
속도
응답 시간 상대적으로 느림
평균 응답 시간 0.32초로 매우 빠름
비용
상대적으로 비쌈
더 저렴하고 무료 ChatGPT 사용자도 가능

GPT4o의 주요 특징

속도: 매우 빠름(평균 응답 시간 0.32초)
성능:
영어: 텍스트와 코드에서 GPT-4와 동등한 성능
비영어: 텍스트, 이미지, 오디오 벤치마크에서 더 뛰어남
효율성: 새로운 토크나이저 덕분에 복잡한 프롬프트와 언어 번역이 더 효율적임
(참고) 토크나이저
토크나이저는 텍스트를 모델이 처리할 수 있는 단위로 분할하는 역할
효율적인 토크나이저는 텍스트를 더 작은 수의 토큰으로 분할하여 모델이 더 적은 계산 자원을 사용하면서도 더 정확하게 텍스트를 이해하고 생성할 수 있게 함
GPT-4o는 최대 128k의 컨텍스트 길이를 처리할 수 있어 복잡한 프롬프트나 긴 대화에서도 일관성을 유지할 수 있음
비영어권 텍스트를 더 잘 이해하고, 더 적은 토큰으로 번역할 수 있어 번역 효율성이 크게 향상됨

GPT4o의 비용

GPT4o는 GPT-4에 비해 50% 더 저렴하며, 무료 ChatGPT 사용자도 사용할 수 있음
입력 토큰: 백만 토큰당 $5
출력 토큰: 백만 토큰당 $15
백만 토큰: 한국어 텍스트로 대략 75만 단어, 약 37,500 문장(약 3000 페이지 분량의 텍스트)에 해당하는 분량

사용방법

모바일: 모바일 앱에서 GPT4o를 통해 텍스트, 이미지, 오디오로 상호작용할 수 있음
PC: 웹 인터페이스를 통해 다양한 입력 형식을 지원