멀티모달 생성형 AI
•
멀티모달 AI는 텍스트, 이미지, 오디오 등의 여러 유형의 데이터를 처리할 수 있는 AI
•
GPT4o(OpenAI), Gemini(Google)
GPT4o란?
•
OpenAI의 최신 AI 모델(2024년 5월 발표)로, 텍스트, 이미지, 오디오를 모두 이해하고 생성할 수 있는 멀티모달 AI
•
기존의 GPT-4 수준의 성능을 유지하면서 더 빠르고 저렴함
•
RLHF(Reinforcement Learning from Human Feedback): 인간 피드백을 통한 강화학습으로 원하는 대화에 최적화
GPT4 vs GPT4o
•
GPT-4는 텍스트 기반인 반면, GPT4o는 텍스트, 이미지, 오디오 모두를 처리할 수 있음
•
속도와 비용 면에서 GPT4o가 더 우수
관점 | GPT-4 | GPT-4o |
모달리티 | 텍스트 기반 | 텍스트, 이미지, 오디오 지원 |
성능 | 고성능 텍스트 생성 | 텍스트, 이미지, 오디오에서 뛰어난 성능 |
속도 | 응답 시간 상대적으로 느림 | 평균 응답 시간 0.32초로 매우 빠름 |
비용 | 상대적으로 비쌈 | 더 저렴하고 무료 ChatGPT 사용자도 가능 |
GPT4o의 주요 특징
•
속도: 매우 빠름(평균 응답 시간 0.32초)
•
성능:
◦
영어: 텍스트와 코드에서 GPT-4와 동등한 성능
◦
비영어: 텍스트, 이미지, 오디오 벤치마크에서 더 뛰어남
•
효율성: 새로운 토크나이저 덕분에 복잡한 프롬프트와 언어 번역이 더 효율적임
◦
(참고) 토크나이저
▪
토크나이저는 텍스트를 모델이 처리할 수 있는 단위로 분할하는 역할
▪
효율적인 토크나이저는 텍스트를 더 작은 수의 토큰으로 분할하여 모델이 더 적은 계산 자원을 사용하면서도 더 정확하게 텍스트를 이해하고 생성할 수 있게 함
◦
GPT-4o는 최대 128k의 컨텍스트 길이를 처리할 수 있어 복잡한 프롬프트나 긴 대화에서도 일관성을 유지할 수 있음
◦
비영어권 텍스트를 더 잘 이해하고, 더 적은 토큰으로 번역할 수 있어 번역 효율성이 크게 향상됨
GPT4o의 비용
•
GPT4o는 GPT-4에 비해 50% 더 저렴하며, 무료 ChatGPT 사용자도 사용할 수 있음
•
입력 토큰: 백만 토큰당 $5
•
출력 토큰: 백만 토큰당 $15
◦
백만 토큰: 한국어 텍스트로 대략 75만 단어, 약 37,500 문장(약 3000 페이지 분량의 텍스트)에 해당하는 분량
사용방법
•
모바일: 모바일 앱에서 GPT4o를 통해 텍스트, 이미지, 오디오로 상호작용할 수 있음
•
PC: 웹 인터페이스를 통해 다양한 입력 형식을 지원