#모델 / 서비스점수변동
1
GPT-5.4 (xhigh)OpenAI
OpenAI
100
—
2
Gemini 3.1 Pro PreviewGoogle
Google
100
—
3
GPT-5.3 Codex (xhigh)OpenAI
OpenAI
94
—
4
Claude Opus 4.6 (Adaptive Reasoning, Max Effort)Anthropic
Anthropic
92
—
5
Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)Anthropic
Anthropic
90
—
6
GPT-5.2 (xhigh)OpenAI
OpenAI
89
—
7
GLM-5 (Reasoning)Z AI
Z AI
86
—
8
Claude Opus 4.5 (Reasoning)Anthropic
Anthropic
86
—
9
GPT-5.2 Codex (xhigh)OpenAI
OpenAI
84
—
10
Grok 4.20 Beta 0309 (Reasoning)xAI
xAI
83
—
11
Gemini 3 Pro Preview (high)Google
Google
83
—
12
GPT-5.1 (high)OpenAI
OpenAI
82
—
13
GPT-5.2 (medium)OpenAI
OpenAI
80
—
14
Claude Opus 4.6 (Non-reasoning, High Effort)Anthropic
Anthropic
80
—
15
Kimi K2.5 (Reasoning)Kimi
Kimi
80
—
순위 산정 기준
LLM 종합Artificial Analysis Intelligence Index — 주요 벤치마크 종합 지수
LLM 코딩Artificial Analysis Coding Index — 코드 생성·완성 벤치마크 종합
LLM 추론Artificial Analysis Math Index — 수학·논리 추론 벤치마크 종합
LLM 속도API 기준 초당 출력 토큰 수 (tokens/sec) 실측값
이미지Artificial Analysis 아레나 ELO — 사용자 투표 기반 (사실감·일러스트·편집)
영상Artificial Analysis 아레나 ELO — T2V/I2V 사용자 투표 기반 (인물·자연)
보이스Artificial Analysis TTS 아레나 ELO — 음성 합성 사용자 투표 기반
점수는 카테고리별 최고점 기준 0-100으로 정규화됩니다. 신규 모델은 NEW 뱃지로 표시됩니다.
자주 묻는 질문
2026년 가장 성능이 좋은 AI 모델은 무엇인가요?
2026년 종합 성능 1위는 Artificial Analysis Intelligence Index 기준으로 매일 업데이트됩니다. 코딩, 추론(수학), 속도 분야별 순위도 별도로 제공됩니다.
ChatGPT와 Claude 중 어떤 AI가 더 뛰어난가요?
용도에 따라 다릅니다. 코딩 분야에서는 Coding Index, 추론 분야에서는 Math Index로 비교할 수 있습니다. 최신 순위는 매일 갱신되며 Artificial Analysis 벤치마크 데이터를 사용합니다.
AI 모델 순위는 어떤 기준으로 산정되나요?
Artificial Analysis API의 공식 벤치마크 데이터를 사용합니다. LLM은 Intelligence/Coding/Math Index와 출력 속도, 이미지·영상·보이스는 ELO 아레나 점수 기반입니다.
이미지·영상 생성 AI 순위는 어떤 기준인가요?
Artificial Analysis의 아레나 투표 기반 ELO 점수를 사용합니다. 이미지는 사실감·일러스트·편집, 영상은 인물·자연·I2V 등 세부 카테고리별 순위도 제공합니다.