AI 순위 산정 방법론

AI인사이트는 투명하고 재현 가능한 방식으로 인공지능 모델 순위를 산정합니다. 이 페이지에서는 데이터 소스, 수집 방법, 정규화 기준, 업데이트 주기를 상세히 설명합니다.

1. 데이터 소스

모든 순위 데이터는 Artificial Analysis의 공개 API를 통해 수집됩니다. Artificial Analysis는 AI 모델의 성능, 가격, 속도를 독립적으로 벤치마킹하는 리서치 플랫폼으로, MMLU, GPQA, HumanEval, SWE-bench, LiveCodeBench 등 학계와 업계에서 널리 사용되는 벤치마크를 통합합니다.

왜 Artificial Analysis인가?
• 다수의 벤치마크를 하나의 통합 지수로 제공 (선택 편향 최소화)
• API 속도·가격을 실측하여 공개 (자체 선언값이 아닌 실측)
• 이미지·영상·보이스 AI까지 동일 방법론으로 평가
• 신규 모델 출시 후 수일 내 데이터 반영

2. 카테고리별 평가 기준

텍스트 AI (LLM)

종합 순위: Intelligence Index — MMLU-Pro, GPQA Diamond, HLE, LiveCodeBench, AIME 등 주요 벤치마크의 가중 종합 지수

코딩 순위: Coding Index — HumanEval, SWE-bench, LiveCodeBench 등 코드 생성·완성 벤치마크 종합

추론 순위: Math Index — MATH, GPQA, HLE, AIME 등 수학·논리 추론 벤치마크 종합

속도 순위: API를 통해 실측한 초당 출력 토큰 수 (tokens/sec) 중앙값

이미지·영상·보이스 AI

이미지 생성: 아레나 ELO 점수 — 사용자들이 두 이미지를 비교하여 투표하는 블라인드 테스트 기반 (사실감/일러스트/편집 세부 카테고리)

영상 생성: 아레나 ELO 점수 — Text-to-Video, Image-to-Video 블라인드 투표 기반 (인물/자연/I2V 세부 카테고리)

보이스 합성: TTS 아레나 ELO 점수 — 음성 샘플 블라인드 비교 투표 기반

한국어 AI

K-EXAONE, HyperCLOVA X, Solar 등 한국어 특화 모델을 별도로 트래킹합니다. 한국어 이해·생성·추론 능력을 평가하는 벤치마크 데이터를 기반으로 합니다.

3. 점수 정규화

각 카테고리 내에서 최고 점수를 100으로 설정하고, 나머지 모델의 점수를 비례적으로 정규화합니다. 이를 통해 서로 다른 단위(Intelligence Index, ELO, tokens/sec)를 동일한 0-100 스케일로 비교할 수 있습니다.

정규화 점수 = (해당 모델 원점수 / 카테고리 내 최고 원점수) × 100

4. 업데이트 주기

매일 자동 업데이트: 매일 KST 09:00경 Artificial Analysis API에서 최신 데이터를 자동 수집합니다.

월별 아카이브: 매월 말 기준 순위 스냅샷을 아카이브에 보관합니다.

순위 변동 표시: 전월 대비 순위 변동(▲/▼)을 모든 모델에 표시합니다.

신규 모델: 새로 벤치마킹된 모델은 NEW 뱃지로 표시됩니다.

5. 한계 및 유의사항

• 벤치마크 점수는 모델의 성능을 완전히 대변하지 않습니다. 실제 사용 경험과 차이가 있을 수 있습니다.

• 속도와 가격은 API 제공업체의 인프라 상태에 따라 변동될 수 있습니다.

• 이미지·영상·보이스의 ELO 점수는 사용자 선호도 기반이므로 주관적 요소가 포함됩니다.

• 일부 비공개 모델(closed-source)의 벤치마크 결과는 제공업체의 자체 보고에 의존할 수 있습니다.

6. 인용 안내

AI인사이트의 순위 데이터를 인용하실 때는 다음 형식을 권장합니다:

출처: AI인사이트 (myaegiswealth.com/rankings), Artificial Analysis 벤치마크 기반, [날짜] 기준

AI 순위 페이지로 돌아가기