캐글에서 영화 추천 시스템 코드를 필사하던 도중, IMDB에서 제공하는 Weight Rating 공식이 따로 있어 한번 기록해본다.
IMDb이란?
Internet Movie Database의 약자로 영화, TV, 비디오, 스트리밍 등 동영상 콘텐츠에 대한 데이터를 관리하고 제공하는 일종의 데이터베이스이다. 현재는 아마존의 자회사인 IMDb.com에서 운영하고 있다.
Weight Rating?
IMDb는 2008년부터 꾸준히 영화를 평가하여 Top 250 등급을 매겨왔다. 그리고 해당 점수를 환산하는 방식은 아래와 같다.
- W : 가중 점수
- v : 해당 영화에 대한 투표 수
- m : 차트에 등재되기 위한 최소한의 투표 수
- R : 평점 평균
- C : 전체 보고서에 대한 평균 점수
예를 들어보자. 영화의 순위를 매기는 것에 영화 평점의 평균이 필요하지만, 이를 사용하는 것은 공평하지 않다. 3명이 투표해서 평균 평점이 8.9점인 것은 40명이 투표하여 7.8점인 것보다 좋다고 할 수 없다. 따라서 해당 공식을 사용하여 투표 수에 따라 가중을 두는 것이다.
v는 영화마다 상이하며, m는 모든 영화에 동일하게 적용되는 상수이다. 따라서 v/(v+m)은 1에 가까울수록 해당 영화에 투표한 사람이 많을 것이고, m/(v+m)은 0에 가까울수록 해당 영화에 투표한 사람이 많을 것이다. 즉, 영화에 대한 투표 정도를확률로 표현했다고 볼 수 있다.
해당 영화의 투표자 수와 비례하는 v/(v+m)은 해당 영화 평점의 평균을 의미하는 R을 곱하고, 해당 영화의 투표자 수와 반비례하는 m/(v+m)은 전체 평점의 평균을 의미하는 C를 곱한다. 이러한 작업을 통해 투표자가 적을수록 영화 평점에 대한 가중치를 적게 부여하는 효과를 가질 수 있는 것이다.