
LMArena
🔍 리서치LLM평가벤치마크오픈벤치
소개
UC Berkeley 연구팀이 2023년 시작한 크라우드소스 LLM 평가 플랫폼으로, 사용자가 두 익명 모델의 답변을 맞비교해 투표하면 그 결과가 공개 리더보드에 집계됩니다. OpenAI·Google·Anthropic 등 주요 기업의 200여 개 모델을 한 곳에서 텍스트·이미지·영상까지 비교할 수 있으며, 정식 출시 전 프리뷰 모델이 이곳에서 먼저 공개되는 경우가 많습니다. 2026년 1월 LMArena에서 Arena로 리브랜딩되었고, 현재 업계에서 사실상 표준 벤치마크로 참조됩니다.
장점
- OpenAI·Google·Anthropic·Alibaba 등 200여 모델을 한 화면에서 직접 비교할 수 있습니다.
- 모델 비교·투표·리더보드 열람이 모두 무료이며 회원가입도 선택 사항입니다.
- 텍스트뿐 아니라 이미지(2024) 및 영상(2026) 모델까지 멀티모달 비교를 지원합니다.
- 미공개 프리뷰 모델을 정식 출시 전에 미리 테스트해볼 수 있는 경우가 많습니다.
- 수백만 건의 사용자 투표를 기반으로 한 공개 리더보드가 업계 표준으로 인정받고 있습니다.
단점
- 사이트 한국어 UI 공식 지원 여부가 명확히 안내되지 않아 주로 영어 환경에서 사용하게 됩니다.
- 크라우드소스 투표 방식 특성상 사용자 선호 편향 등 순위 해석의 한계가 존재합니다.
- 특정 작업(코드·수학·한국어 등) 성능은 리더보드 종합 순위만으로 판단하기 어렵습니다.
주요 활용 사례
- 새 AI 모델 도입 전 후보 모델의 실제 답변 품질 비교
- 같은 프롬프트에 대한 GPT·Claude·Gemini 답변 차이 확인
- 한국어 프롬프트에서 모델별 응답 품질 체감 테스트
- 이미지·영상 생성 모델의 결과물 블라인드 비교
- 출시 전 프리뷰 모델의 성능 미리보기
- 리더보드를 참고한 업무용 LLM 선정 의사결정
핵심 기능
익명 쌍대 비교
두 개의 익명 모델에 동일한 프롬프트를 던지고 더 나은 답변에 투표한 뒤 모델 정체가 공개됩니다.
모델 직접 선택 테스트
Battle 모드 외에 특정 모델을 직접 골라 단독으로 테스트할 수 있습니다.
공개 리더보드
수백만 건의 사용자 투표를 집계해 채팅·웹개발·이미지·검색 등 카테고리별 모델 순위를 공개합니다.
멀티모달 평가
텍스트뿐 아니라 이미지(2024년 6월)와 영상(2026년 1월) 모델 비교도 지원합니다.
미출시 모델 프리뷰
OpenAI·Google·Anthropic 등 주요 기업의 미공개 모델이 정식 출시 전에 이곳에서 먼저 테스트되는 경우가 많습니다.
200개 이상 모델 지원
OpenAI, Google, Anthropic, Alibaba 등 글로벌 주요 제공사의 모델 200여 개를 한 곳에서 비교할 수 있습니다.
공식 사이트 2026-04-08 검증
💰 요금제 (2026-04-08 기준)
Free
0
- · 모든 모델 비교·투표 무료
- · 리더보드 열람 무료
- · 등록은 선택 사항
🇰🇷 한국 사용자 안내
- 한국어 UI:
- ✅ 한국어 UI 지원
- 결제:
- 확인 필요
- 환불:
- 무료 서비스이므로 결제·환불 정책이 없습니다.
영문 Wikipedia에 따르면 한국어를 포함한 8개 언어를 지원하며, 한국어 프롬프트 입력과 한국어 응답 비교 모두 가능합니다.
❓ 자주 묻는 질문
LMArena는 무엇을 하는 사이트인가요?
대형 언어모델(LLM)을 익명 쌍대 비교 방식으로 평가하는 공개 웹 플랫폼입니다. 사용자가 같은 질문에 대한 두 모델의 답변에 투표하고, 그 결과로 모델 순위를 매깁니다.
유료인가요?
무료입니다. 회원 가입도 선택 사항이며, 모델 비교와 리더보드 조회 모두 비용이 들지 않습니다.
어떤 모델을 비교할 수 있나요?
OpenAI, Google, Anthropic, Alibaba 등 주요 제공사의 200여 개 모델을 지원하며 텍스트·이미지·영상 모델까지 포함합니다.
한국어로 질문해도 되나요?
한국어 프롬프트 입력 자체는 가능하지만, 사이트 UI의 한국어 지원 여부는 공식적으로 확인되지 않았습니다. 응답 품질은 각 모델의 한국어 성능에 따라 달라집니다.
리더보드는 얼마나 믿을 만한가요?
수백만 건의 사용자 투표를 집계한 크라우드소스 순위로 업계에서 사실상 표준으로 참조되지만, 학계에서는 투표 방식의 편향 가능성 등 한계도 지적되고 있습니다.
LMArena와 Arena는 같은 서비스인가요?
네, 2026년 1월에 LMArena에서 Arena로 리브랜딩되었습니다. 기존 lmarena.ai 도메인은 arena.ai로 리디렉션됩니다.
2026-04-08 검증 · 변경 가능