AI인사이트 로고AI Insight
LMArena

LMArena

🔍 리서치LLM평가벤치마크오픈벤치

소개

UC Berkeley 연구팀이 2023년 시작한 크라우드소스 LLM 평가 플랫폼으로, 사용자가 두 익명 모델의 답변을 맞비교해 투표하면 그 결과가 공개 리더보드에 집계됩니다. OpenAI·Google·Anthropic 등 주요 기업의 200여 개 모델을 한 곳에서 텍스트·이미지·영상까지 비교할 수 있으며, 정식 출시 전 프리뷰 모델이 이곳에서 먼저 공개되는 경우가 많습니다. 2026년 1월 LMArena에서 Arena로 리브랜딩되었고, 현재 업계에서 사실상 표준 벤치마크로 참조됩니다.

장점

  • OpenAI·Google·Anthropic·Alibaba 등 200여 모델을 한 화면에서 직접 비교할 수 있습니다.
  • 모델 비교·투표·리더보드 열람이 모두 무료이며 회원가입도 선택 사항입니다.
  • 텍스트뿐 아니라 이미지(2024) 및 영상(2026) 모델까지 멀티모달 비교를 지원합니다.
  • 미공개 프리뷰 모델을 정식 출시 전에 미리 테스트해볼 수 있는 경우가 많습니다.
  • 수백만 건의 사용자 투표를 기반으로 한 공개 리더보드가 업계 표준으로 인정받고 있습니다.

단점

  • 사이트 한국어 UI 공식 지원 여부가 명확히 안내되지 않아 주로 영어 환경에서 사용하게 됩니다.
  • 크라우드소스 투표 방식 특성상 사용자 선호 편향 등 순위 해석의 한계가 존재합니다.
  • 특정 작업(코드·수학·한국어 등) 성능은 리더보드 종합 순위만으로 판단하기 어렵습니다.

주요 활용 사례

  • 새 AI 모델 도입 전 후보 모델의 실제 답변 품질 비교
  • 같은 프롬프트에 대한 GPT·Claude·Gemini 답변 차이 확인
  • 한국어 프롬프트에서 모델별 응답 품질 체감 테스트
  • 이미지·영상 생성 모델의 결과물 블라인드 비교
  • 출시 전 프리뷰 모델의 성능 미리보기
  • 리더보드를 참고한 업무용 LLM 선정 의사결정

핵심 기능

익명 쌍대 비교

두 개의 익명 모델에 동일한 프롬프트를 던지고 더 나은 답변에 투표한 뒤 모델 정체가 공개됩니다.

모델 직접 선택 테스트

Battle 모드 외에 특정 모델을 직접 골라 단독으로 테스트할 수 있습니다.

공개 리더보드

수백만 건의 사용자 투표를 집계해 채팅·웹개발·이미지·검색 등 카테고리별 모델 순위를 공개합니다.

멀티모달 평가

텍스트뿐 아니라 이미지(2024년 6월)와 영상(2026년 1월) 모델 비교도 지원합니다.

미출시 모델 프리뷰

OpenAI·Google·Anthropic 등 주요 기업의 미공개 모델이 정식 출시 전에 이곳에서 먼저 테스트되는 경우가 많습니다.

200개 이상 모델 지원

OpenAI, Google, Anthropic, Alibaba 등 글로벌 주요 제공사의 모델 200여 개를 한 곳에서 비교할 수 있습니다.

공식 사이트 2026-04-08 검증

💰 요금제 (2026-04-08 기준)

Free

0

  • · 모든 모델 비교·투표 무료
  • · 리더보드 열람 무료
  • · 등록은 선택 사항

🇰🇷 한국 사용자 안내

한국어 UI:
✅ 한국어 UI 지원
결제:
확인 필요
환불:
무료 서비스이므로 결제·환불 정책이 없습니다.
영문 Wikipedia에 따르면 한국어를 포함한 8개 언어를 지원하며, 한국어 프롬프트 입력과 한국어 응답 비교 모두 가능합니다.

자주 묻는 질문

LMArena는 무엇을 하는 사이트인가요?
대형 언어모델(LLM)을 익명 쌍대 비교 방식으로 평가하는 공개 웹 플랫폼입니다. 사용자가 같은 질문에 대한 두 모델의 답변에 투표하고, 그 결과로 모델 순위를 매깁니다.
유료인가요?
무료입니다. 회원 가입도 선택 사항이며, 모델 비교와 리더보드 조회 모두 비용이 들지 않습니다.
어떤 모델을 비교할 수 있나요?
OpenAI, Google, Anthropic, Alibaba 등 주요 제공사의 200여 개 모델을 지원하며 텍스트·이미지·영상 모델까지 포함합니다.
한국어로 질문해도 되나요?
한국어 프롬프트 입력 자체는 가능하지만, 사이트 UI의 한국어 지원 여부는 공식적으로 확인되지 않았습니다. 응답 품질은 각 모델의 한국어 성능에 따라 달라집니다.
리더보드는 얼마나 믿을 만한가요?
수백만 건의 사용자 투표를 집계한 크라우드소스 순위로 업계에서 사실상 표준으로 참조되지만, 학계에서는 투표 방식의 편향 가능성 등 한계도 지적되고 있습니다.
LMArena와 Arena는 같은 서비스인가요?
네, 2026년 1월에 LMArena에서 Arena로 리브랜딩되었습니다. 기존 lmarena.ai 도메인은 arena.ai로 리디렉션됩니다.

2026-04-08 검증 · 변경 가능