AI인사이트 로고AI Insight
Wan

Wan

🎬 영상 생성영상생성알리바바오픈소스

소개

Wan은 알리바바가 개발한 오픈소스 AI 영상 생성 모델 시리즈로, wan.video 플랫폼에서 텍스트-영상, 이미지-영상, 영상 편집, 스타일 변환 등 다양한 창작 도구를 제공합니다. 최신 Wan 2.1은 14B와 1.3B 두 가지 모델 크기를 지원하며, 1.3B 모델은 8.19GB VRAM으로 일반 소비자 GPU에서도 실행 가능합니다. 영상 내 중국어·영어 텍스트 생성이 가능한 최초의 영상 모델이며, Hugging Face·ComfyUI·Diffusers 등 오픈소스 생태계와 폭넓게 통합됩니다.

장점

  • 오픈소스로 모델 가중치와 코드가 공개되어 무료 셀프호스팅 가능
  • 1.3B 경량 모델은 8.19GB VRAM으로 일반 소비자 GPU에서 실행 가능
  • 텍스트-영상, 이미지-영상, 영상 편집, 스타일 변환 등 올인원 영상 AI 플랫폼
  • ComfyUI·Hugging Face Diffusers 등 오픈소스 생태계와 폭넓게 통합
  • 영상 내 중국어·영어 텍스트 렌더링을 지원하는 최초의 영상 모델

단점

  • 한국어 UI와 프롬프트 지원이 제한적이며 영어 입력이 권장됨
  • 14B 풀사이즈 모델은 멀티 GPU가 필요해 개인 사용자에게 진입장벽이 높음
  • wan.video 플랫폼의 가격 정책이 명확히 공개되지 않아 유료 전환 비용 예측 어려움
  • 최대 720P 해상도로 1080P 이상이 필요한 전문 영상 제작에는 부족

주요 활용 사례

  • 텍스트 설명으로 SNS용 짧은 AI 영상 제작
  • 제품 사진을 동영상 광고 소재로 변환
  • 디지털 휴먼 립싱크 영상으로 AI 아바타 콘텐츠 제작
  • 기존 영상의 스타일 변환 및 리페인팅 편집
  • 로컬 GPU에서 오픈소스 모델로 영상 생성 파이프라인 구축
  • 스케치나 드로잉을 고품질 이미지로 변환

핵심 기능

텍스트-영상 생성

텍스트 프롬프트로 최대 720P 해상도의 AI 영상을 생성합니다

이미지-영상 변환

정지 이미지를 자연스러운 동영상으로 변환하며 이펙트 적용이 가능합니다

VACE 영상 편집

기존 영상의 리페인팅, 합성 편집, 확장 등 고급 편집 기능을 지원합니다

소비자 GPU 지원

1.3B 경량 모델은 RTX 4090에서 5초 영상을 약 4분에 생성합니다

스타일 변환·초해상도

사진→드로잉, 스케치→이미지, 영상 초해상도 업스케일링을 지원합니다

음성-영상 생성

음성 입력으로 립싱크 디지털 휴먼 영상을 제작할 수 있습니다

오픈소스 공개

GitHub에서 모델 가중치와 코드가 공개되어 자유롭게 커스터마이징 가능합니다

공식 사이트 2026-04-19 검증

💰 요금제 (2026-04-19 기준)

Free Tier

무료 (크레딧 기반)

  • · 기본 생성 기능 이용 가능
  • · 일일 무료 크레딧 제공

오픈소스 셀프호스팅

무료 (GPU 비용 별도)

  • · GitHub에서 모델 다운로드
  • · 1.3B 모델: 8.19GB VRAM 필요
  • · 14B 모델: 멀티 GPU 필요

🇰🇷 한국 사용자 안내

한국어 UI:
확인 필요
결제:
확인 필요
환불:
크레딧 기반 서비스로 별도 환불 정책 확인 필요
알리바바 제품으로 /ko URL 경로가 존재하나 실제 한국어 콘텐츠는 동적 로딩 방식이라 확인 불가. 오픈소스 모델은 언어 무관하게 사용 가능

자주 묻는 질문

Wan은 무료로 사용할 수 있나요?
wan.video 플랫폼에서 무료 크레딧으로 기본 기능을 이용할 수 있고, 오픈소스 모델을 다운로드해 로컬에서 무료로 실행할 수도 있습니다.
어떤 GPU가 필요한가요?
1.3B 경량 모델은 8.19GB VRAM이면 충분하며, RTX 4090급 GPU에서 5초 480P 영상을 약 4분에 생성합니다. 14B 모델은 멀티 GPU 환경이 필요합니다.
Wan 2.1의 주요 개선점은 무엇인가요?
영상 내 중영문 텍스트 생성, VACE 기반 영상 편집, 첫-마지막 프레임 지정 생성 등이 추가되었으며 벤치마크에서 기존 오픈소스·상용 모델을 상회합니다.
ComfyUI에서 사용할 수 있나요?
네, Wan 2.1은 ComfyUI, Hugging Face Diffusers, 네이티브 코드 등 다양한 방식으로 통합할 수 있습니다.
한국어 프롬프트를 지원하나요?
공식적으로 중국어와 영어 프롬프트를 지원합니다. 한국어 프롬프트는 제한적이며, 영어로 입력하는 것이 더 안정적인 결과를 제공합니다.
영상 해상도와 길이는 어떻게 되나요?
최대 720P 해상도를 지원하며, 14B 모델은 720P와 480P, 1.3B 모델은 480P 영상을 생성합니다.

2026-04-19 검증 · 변경 가능