12 분 소요


추천시스템 개요


추천 시스템의 기본적인 아이디어는 다양한 데이터 소스를 활요해 고객의 관심을 추론하는 것.

과거 관심사와 성향이 미래 선택에 대한 좋은 방향석을 제시해주는 경우가 많기 때문에, 추천 분석은 흔히 사용자(user)와 아이템(item) 간의 과거 상호작용에 기반함

기본 원칙

사용자와 아이템 중심의 활동 사이에 상당한 의존성이 존재한다는 것.

ex : 다큐멘터리에 관심 있는 사용자는 액션 영화보다는 다른 역사 다큐멘터리나 교육 프로그램에 관심을 가질 가능성이 높음.

이러한 의존성은 평점 행렬에서 데이터 기반 방식으로 학습될 수 있으며, 학습을 통해 만들어진 결과 모델은 대상 사용자에 대한 예측을 하는데 이용.

사용자가 이용할 수 있는 평가 항목의 수가 많을수록 사용자의 미래 행동에 대해 견고한 예측이 쉬워진다.


추천 시스템의 목표


추천 문제를 공식화하는 다양한 방법

  1. 예측 모델

    사용자 - 아이템 조합에 대한 평가 값을 예측. 아이템에 대한 사용자의 선호도를 나타내는 학습 데이터를 사용할 수 있다고 가정함. $m$ 사용자와 $n$ 아이템의 경우, 이는 불완전한 $m\times n$ 행렬에 해당하며 여기서 지정된(관찰된) 값은 학습에 사용된다. 누락된(관측되지 않은) 값은 훈련 모델을 사용해 예측된다. 불완전하게 만들어진 행렬을 가지며 나머지 값은 학습 알고리듬에 의해 예측되기 때문에 이 문제는 행렬 완성 문제라고도 한다.

  2. 랭킹 모델

    실제로 사용자에게 추천하기 위해 특정 아이템에 대한 사용자 평점을 예측할 필요가 없다. 오히려 판매자는 특정 사용자에 대한 상위 $k$ 아이템을 추천하거나 특정 아이템에 대해 목표로하는 상위 $k$ 사용자를 결정할 수 있다. 두 경우 계산하는 방법이 거의 유사하지만 상위 $k$ 아이템의 결정이 상위 $k$ 사용자의 결정보다 더 일반적으로 사용된다. top-$k$ 추천 문제라고도 하며 추천 문제의 순위를 계산하는 것이다.

제품 판매 증가는 추천 시스템의 주요 목표. 신중하게 선택한 아이템을 사용자에게 추천함으로 추천 시스템은 관련 아이템으로 사용자의 관심을 유도하고, 판매자의 판매량과 이익을 증가시킴. 수익 증대라는 광범위한 비즈니스 중심 목표를 달성하기 위해 추천 시스템의 일반적인 운영 및 기술적 목표는 다음과 같다.

  1. 관련성 : 추천 시스템의 가장 명백한 운영 목표는 사용자와 관련 있는 아이템을 추천하는 것이다. 흥미를 느끼는 아이템을 더 많이 소비할 가능성이 있다.

  2. 참신성 : 추천 시스템이 사용자가 이전에 보지 못했던 아이템을 추천해줄 때 많은 도움이 된다.

    ex : 사용자가 선호하는 장르의 인기 영화는 사용자에게 거의 새로운 것이 아니다. 인기 있는 상품에 대한 반복적인 추천으로 인해 사용자는 다양한 상품을 구매할 수 있는 기회를 잃게 된다.

  3. 의외성 : 추천되는 아이템은 다소 예상치 못한 것이며, 따라서 너무 뻔한 추천과 반대로 행운의 발견이 될 수 있다. 사용자들이 이전에 알지 못했던 내용의 추천이라기보다는 정말 뜻밖의 추천이라는 면에서 참신성과는 구별된다. 사용자는 스스로 놀랄 만큼 다른 유형의 아이템에 대한 잠재적 관심이 있더라도, 특정 유형의 아이템만을 소비하는 경우가 종종 있다. 의외성은 판매 다양성을 높이거나 사용자의 새로운 관심이 시작되는 데 좋은 효과가 있다. 단기적으로는 대체로 관련성이 없는 아이템을 추천하지만, 장기적으로는 사용자에게 새로운 관심 영역을 발견시켜주기 때문에 판매자에게 전략적인 이익을 가져다 줄 수 있다.

    ex : 인근에 새로운 인도 음식점이 생기면 일반적으로 인도 음식을 먹는 사용자에게 해당 음식점의 추천은 참신한 것이지만 반드시 의외인 것은 아니다. 반면 동일한 사용자에게 에티오피아 음식이 추천됐을 때, 그 음식이 그 사람에게 흥미로울 수 있다는 것을 본인도 모르고 있었다면, 그것은 생각하지 못한 음식을 추천한 것으로 볼 수 있다.

  4. 증가된 추천 다양성 : 일반적으로 추천 시스템은 상위-$k$개의 아이템을 추천한다. 이렇게 제안된 아이템 모두가 유사한 특징을 가질 때, 사용자는 이들 중 어느 것도 선호하지 않을 위험이 커진다. 추천된 리스트에 다른 유형의 아이템이 포함돼 있을 경우, 사용자는 이들 중 최소한 하나를 선호할 가능성이 높아진다. 다양성은 사용자가 유사한 아이템들의 반복된 추천으로 인해 지루해지지 않도록 하는 이점이 있다.

사용자의 측면에서 추천은 웹사이트에 대한 전반적인 사용자 만족도를 향상시키는 데 도움이 될 수 있다. 이 후 사용자의 충성도를 높일 수도 있으며, 판매자의 매출을 한층 더 높일 수 있다.

판매자의 측면에서는 추천 프로세스를 통해 사용자의 요구 사항에 대한 통찰력을 제공하고 사용자의 환경을 개개인의 요구 사항에 맞추는 데 도움을 줄 수 있다. 또한 사용자에게 특정 아이템을 추천하는 이유에 대한 설명을 제공하는 것이 유용하다.


추천 시스템의 기본 모델


기본적으로

  1. 평점이나 구매 행동과 같은 사용자-아이템 인터랙션
  2. 텍스트로 된 프로파일 혹은 관련 키워드와 같은 사용자와 아이템에 관련한 속성 정보

이를 바탕으로

  1. 사용자 - 아이템 인터랙션을 이용한 협업 필터링 방법(Collaborative Filtering)
  2. 사용자와 아이템에 관련한 속성 정보를 이용한 콘텐츠 기반 추천 방법 (Content-based recommender methods)
  3. 특정 사용자의 조건을 기반으로 하는 지식 기반 추천 시스템 (Knowledge-based recommender system)

이에 확장하여 여러 모델을 혼합한 아이브리드 시스템을 만들 수 있음.


1) 협업 필터링 모델


여러 사용자의 평점을 협업해 추천.

협업 필터링 방법에 있어서의 가장 큰 문제는 평점 행렬의 분포가 고르지 못하다는 점. 대부분의 사용자는 일부의 아이템만을 사용해보았기 때문에, 대부분의 평점은 관측되지 않는다.

협업 필터링 방법론의 기본 구조는 발견된 평점은 사용자와 아이템과 매우 높은 상관관계를 가지고 있어 명시되지 않은 평점 또한 대체가 가능하다는 점이다.

ex : 앨리스와 밥은 유사한 취향을 가지고 있다면, 앨리스가 좋아한 아이템은 밥 또한 좋아할 것!

협업 필터링의 대부분 모델은 아이템 간 상관관계나 사용자 간 상관관계를 예측 프로세스에 활용하는 데 중점을 둔다. 일부 모델은 두 상관관계를 모두 활용하기도 한다. 더 나아가 정답이 있는 데이터 훈련 모델을 만드는 방법과 같이 최적화 방법을 통해 모델을 훈련시키기도 한다. 이 모델은 구분자가 정답이 누락된 답을 유추하듯이 행렬의 빈 값을 채워 넣는 역할을 한다.


(1) 메모리 기반 기법 (Memory-based methods)


이웃 기반 협업 필터링 알고리즘. 이웃을 기반으로 사용자-아이템 조합의 평점을 예측.

  • 사용자 기반 협업 필터링
    • 타깃 사용자 A와 유사한 성향을 가지고 있는 사용자들의 평점 결과로 A의 추천을 진행.
    • A와 유사한 사용자 정의 - 피어 그룹 평가 결과의 가중 평균을 기반으로 A의 관측되지 않은 평점 예측
    • 유사 사용자를 찾기 위해 평점 행렬 행을 통해 유사도 함수 계산
  • 아이템 기반 협업 필터링
    • 사용자 A를 통해 타깃 아이템 B의 평점을 예측하려면 타겟 아이템인 B와 가장 유사한 아이템 집합 S의 정의가 첫 번째 단계.
    • 사용자 A가 정의한 아이템 집합 S의 평점은 사용자가 아이템 B를 좋아할지 안 좋아할지 예측하는 데 쓰인다.
    • ex : 밥이 정의한 <에이리언>과 <프레데터>와 같은 과학 소설 영화에 대한 평점은 그가 아직 보지 않은 <터미네이터>의 평점을 예측하는데 사용
    • 유사 아이템을 찾기 위해 평점 행렬 열을 통해 유사도 함수 계산

장점 : 적용하기 간단하고 추천 결과는 설명하기 쉬움.

단점 : 분포가 고르지 못한 평점에는 잘 작동되지 않음

ex: 밥과 유사한 사용자 중에서 <글래디에이터>를 평가한 사용자를 찾는 것은 어려울 수 있음. 이 경우 밥이 <글래디에이터>에 어떤 평점을 줄지 예측하기 어려움.

즉, 평점 예측의 전체를 커버하기에는 어려울 수 있는 방법론.

하지만, 상위 -$k$개의 아이템만 필요하다면 커버리지 부족은 큰 이슈거리가 아님.


(2) 모델 기반 방법론


예측 모델에 머신러닝과 데이터 마이닝 기술을 이용.

모델을 파라미터로 나타내는 경우에, 파라미터 값은 최적화 단계에 따라 학습

의사 결정 트리(decision trees), 룰 기반 모델(rule-based models), 베이지안 방법론(Bayesian methods), 잠재 요인 모형(Latent factor models)


(3) 평점의 종류


인터벌 기반 평점(interval-based ratings) : 순서가 정렬된 서로 다른 숫자의 인터벌 형태로 좋고 싫음을 정량화 함.

ex: 매우 싫음(-2), 싫음(-1), 보통(0), 좋음(1), 매우 좋음(2)

평점 표현 방식 : 포인트 개수에 따라 다를 수 있음.

서수 평점 (ordinal ratings) : 순서형의 범주형 값을 평점으로 이용한 경우

이진 평점 (binary ratings) : 사용자가 상품에 대해 좋거나 싫음에 대한 평가만을 할 수 있음.

단향 평점(unary ratings) : 호감만을 표현하고 비호감 표현에 대한 기능은 없는 평점


평점 행렬과 명시적 평점, 암시적 평점

$m$명의 사용자에 대해 각각 $n$개의 아이템에 대한 평점을 나타낸 $m\times n$ matrix를 평점 행렬이라고 한다.

만약 평점 행렬에서 평점을 인터벌 기반 평점을 사용한 경우 해당 평점은 명시적 평점의 예시가 될 수 있음.

단항 평점의 경우 행렬은 긍정적 신호만을 의미하기 때문에 긍정적 선호 효용 행렬(positive preference utility matrix)이라고도 함.

단항 행렬은 일반적으로 사용자 행동을 기반으로 만들어지기 때문에 암시적 피드백 행렬이라고도 부른다.

단항 평점은 아이템에 대한 사용자의 비호감 여부를 알 수 없기 때문에 추천 알고리즘에서 매우 큰 영향을 끼친다. 비어 있는 항을 초기 단계에서 0으로 표현하는 경우, 만약 아이템이 사용자의 취향과 맞는다면, 학습 알고리즘을 통한 최종 예측 값은 0보다 훨씬 큰 값일 수 있다. 따라서, 추천된 아이템은 초깃값 ‘0’이라는 가정에 대한 가장 큰 양의 예측 오류가 있는 항을 기반으로 한다. 만약 누락된 항을 0으로 대체하지 않는다면 치명적인 overfitting이 발생할 수 있다.

명시적 피드백 행렬에서 평점은 (매우 차별화된) 선호도에 해당하는 반면, 암시적 피드백 행렬에서의 평점은 (덜 차별화된) 신뢰도에 해당된다.

명시적 평점 행렬에서는 누락된 평점을 미리 다른 값으로 대체하는 것을 권장하지 않는다. 명시적 평점 행렬은 ‘좋아요’와 ‘싫어요’가 동시에 있는데, 누락 항을 대체할 수 있는 값은 항상 분석에서 큰 bias가 발생한다. 한편, 단항의 경우에는 암시적 피드백 데이터에 대한 전제가 되는 가정이 물건 구매의 케이스와 같이 ‘사용자는 대부분의 아이템을 사지 않을 것이다.’이다. 따라서 누락 값을 0으로 대체하는 방법은 명시적 평점 행렬보다는 다소 약한 bias로 이어진다. 이 대체 값은 큰 양의 overfitting을 줄여주기 때문에 이 정도의 bias는 감안하기도 한다.


(4) Classification과 Regression modeling의 일반화로써의 협업 필터링


협업 필터링 방법론은 분류와 회귀 모델링의 일반화로 여겨지기도 한다. 분류와 회귀 모델링 문제에서는 클래스/종속 변수를 결측치 속성으로 볼 수 있다. 다른 열은 feature로 취급한다. 협업 필터링 문제는 클래스 변수의 경우만 제외하곤 어떤 열이든 결측치가 존재할 수 있기 때문에 프레임워크를 일반화할 수 있다. 추천 문제에서는 클래스 변수와 feature 값은 종속 변수와 독립변수 역할을 모두 하기 때문에 명확한 차이점이 존재하지 않는다. 더 나아가 협업 필터링에서는 train set과 test set의 행에서는 어디든 결측치가 있을 수 있기 때문에 차이가 없다. 따라서 협업 필터링에서의 train row와 test row보다 train, test set의 항에 대해 이야기하는 것이 더욱 의미가 있다. 협업 필터링은 예측이 row-wise가 아닌 entry-wise로 수행하는 classification와 regression 모델링의 일반화이다.

행렬 완성 문제는 classfication 및 regression 문제에서 전이 환경(transductive setting)과 많은 특징을 공유한다. 전이 환경에서는 테스트 인스턴스는 학습 과정에 포함되고, 학습할 때에는 존재하지 않는 테스트 인스턴스를 예측하는 일은 어려운 경우가 많다. 이와 반대로 새로운 인스턴스에 대한 예측을 쉽게 할 수 있는 모델을 귀납적(inductive)라고 한다.

행렬 완성 환경은 학습 데이터와 테스트 데이터가 행렬 $R$이라는 $m\times n$ 평점 행렬로 서로 밀접하게 연결돼 있고, 많은 모델이 표본에서 벗어난 사용자 또는 아이템에 대해서는 평점을 쉽게 예측하지 못하기 때문에 본질적으로 transductive하다.

ex : 만일 존이 협업 필터링 모델이 이미 만들어진 후에, 평점 행렬에 추가가 됐다면, 많은 기존의 방법론은 존에 대해서 예측하지 못할 것이다.


2) 콘텐츠 기반 추천 시스템


콘텐츠 기반 추천 시스템에서는 아이템의 설명 속성을 추천에 활용한다. ‘Content’라는 용어가 설명에 해당된다. 콘텐츠 기반 방법론은 사용자의 평점과 구매 행동이 아이템의 콘텐츠 정보와 조합된다.

ex: 존이 <터미네이터>라는 영화에 높은 평점을 주고 다른 사용자의 평점에 대해서는 알 방법이 없다고 해보자. 이 경우 협업 필터링 방법론은 사용할 수 없다. 하지만 <터미네이터>라는 아이템의 설명에는 <에이리언>, <프레데터>와 같은 다른 공상과학영화와 같은 유사 장르 키워드를 포함하고 있다. 이때는 <에이리언>과 <프레데터>를 존에게 추천할 수 있다.

콘텐츠 기반 방법론에서 평점과 함께 레이블돼 있는 아이템 설명은 사용자별 classification 혹은 regression modeling 문제를 만들 때의 학습 데이터로 활용한다. 각 사용자에게 학습 데이터는 사용자가 직접 구매하거나 작성한 아이템 설명에 해당한다. 클래스 변수는 명시된 평점 혹은 구매 행동에 해당한다. 이러한 사용자 특정 모델은 해당 개인이 평점이나 구매 행동이 알려지지 않은 경우에 아이템을 좋아할지 좋아하지 않을지 예측하는 데 사용한다.

콘텐츠 기반 방법론은 평점 데이터가 충분하지 않은 새로운 아이템에 대한 추천에 있어 몇 가지 장점이 있다. 활성 사용자들이 유사한 속성을 가진 다른 아이템들을 평가했을 수 있기 때문이다. 따라서 supervised learning modeling에서는 아이템에 대한 평점 이력이 없다 하더라도 속성을 활용해 추천에 활용할 평점을 매길 수 있다.

하지만 콘텐츠 기반 방법론에도 몇 가지 단점이 존재한다.

  1. 대부분의 경우 콘텐츠 기반 방법론은 키워드나 내용 때문에 명백한 추천을 제공한다. 이는 구성된 모델이 현재의 사용자에게 제한돼 있고 유사한 사용자의 커뮤니티 지식을 활용하지 않았기 때문이다. 이런 현상은 추천 아이템의 다양성을 줄이는 바람직하지 않은 경우이다.
  2. 콘텐츠 기반 방법론이 새로운 아이템 추천에는 매우 효과적이라 하더라도, 새로운 사용자에게 제안하는 추천은 효과적이지 않다. 타깃 아요자를 위해 학습되는 모델은 사용자의 평점 이력이 있어야만 하기 때문이다. Robust한 예측을 하기 위해서는 타깃 사용자의 매우 많은 수의 평점 정보가 중요하다.


3) 지식 기반 추천 시스템


지식 기반 추천 시스템은 자주 구매하지 않은 아이템에 대해서 특히나 유용하다.이런 경우 충분한 평점이 추천 과정 중에 존재하지 않을 수 있다. 아이템을 드물게 구매하기도 하고 상세 옵션의 종류가 다르기 때문에, 구매하려는 아이템의 특정 인스턴스화(옵션들의 조합)에 대해 충분한 평점 정보를 얻기 어렵다. (Cold Start problem). 또한 소비자 선호도의 특성은 시간이 지남에 따라 변화할 수 있다. 마지막으로, 평점 이력만을 가지고는 사용자의 관심사를 정확히 알기는 어려울 것이다.

ex : 자동차의 경우 자주 구매하지 않는 제품 중 하나이므로 충분한 평점 정보를 얻기 힘들다.

ex : 시간이 지남에 따라 자동차의 트랜드가 변화하는 경우가 생겨, 소비자의 트랜드 역시 변화할 수 있다.

ex : 자동차를 구성하는 요소가 매우 많기 때문에, 자동차 구매이력 하나로는 소비자가 어떤 특징으로 인해 자동차를 구매했는지 명확하게 판단하기 어렵다.

위와 같은 경우 추천을 위해 평점을 활용하지 않는 지식 기반 추천 시스템으로 해결할 수 있다. 고객의 요구 사항과 아이템 상세 정보 간의 유사도, 혹은 사용자 요구 사항을 정하면서 생긴 제약 조건을 이용해 추천 프로세스를 수행할 수 있다. 추천 프로세스는 검색 과정에서 사용하는 규칙과 유사도 함수에 대한 데이터를 포함하는 지식 기반을 사용하기 때문에 가능하다.

지식 기반 추천 시스템은 앞서 언급한 목표를 달성하기 위해 활용하는 인터페이스로 나눌 수 있다.

  1. 제약 기반 추천 시스템(Constraint-based) : 사용자가 아이템에 대해 요구 사항과 제한 내용(상계, 하계 제한선)을 아이템 속성에 기입하게 된다.도메인별 규칙은 사용자 요구 사항과 아이템 속성을 일치시키는 데 사용한다. 이 규칙은 해당 시스템에서 사용하는 도메인별 지식을 나타내고 아이템 속성에 대한 도메인별 제약 조건 형식이 될 수 있다. 또한 제약 기반 시스템은 종종 사용자 속성을 아이템 속성과 연관시키는 규칙을 만든다. 검색 프로세스는 사용자가 원하는 결과에 도달할 때까지 수정, 상호작용하며 반복된다. - 사용자에게 필요한 속성의 최대, 최솟값을 기입 후 이를 만족하는 아이템을 나타내주는 것.
  2. 사례 기반 추천 시스템() : 사례 기반 추천 시스템의 특정 사례는 사용자가 대상 또는 앵커 포인트(anchor points)로 지정된다. 유사도 측정은 이러한 사례와 유사한 아이템을 검색하기 위해 아이템 속성에 정의된다. 검색된 결과는 사용자에 의해 상호작용한 일부 수정 사항을 반영해 새로운 대상으로 사용하는 경우가 많다. - 사용자가 이상적으로 생각하는 제품 속성을 기입 후 그 속성과 가장 비슷한 제품군을 찾아주는 방법

지식 기반 추천 시스템에서의 상호 작용은 다음 방법 중 하나 이상을 통해 수행한다.

  1. 대화형 시스템 : 사용자 선호도는 피드백 루프의 맥락에서 반복적으로 결정된다. 이는 ㅇ아이템 도메인이 복잡하고, 사용자 선호도를 반복적인 대화형 시스템의 맥락에서만 결정할 수 있기 때문이다.
  2. 검색 기반 시스템 : 검색 기반 시스템에서 사용자 선호도는 사전에 설정한 일련의 질문으로 추출한다. 경우에 따라 특정 검색 인터페이스는 사용자 제약을 명시하는 기능을 제공하기 위해 설정할 수 있다.
  3. 탐색 기반 추천(Navigation-based recommendation) : 사용자는 현재 추천하는 아이템에 대한 변경 요청 수를 명시한다. 반복되는 변경 요청을 통해 원하는 아이템에 도달할 수 있다. 이러한 추천 시스템을 평론 추천 시스템(critiquing recommender systems)이라고 한다.

지식 기반 시스템과 콘텐츠 기반 시스템은 아이템의 속성에 크게 의존한다. 또한 지식 기반 시스템은 콘텐츠 속성을 사용하기 때문에 콘텐츠 기반 시스템과 동일한 단점을 일부 갖고 있다. 두 시스템의 큰 차이는 콘텐츠 기반 시스템은 사용자의 과거 행동으로부터 학습하는 반면, 지식 기반 추천 시스템은 자신의 필요와 관심사에 대한 능동적인 사용자 요구 사항을 기반으로 추천한다는 것이다. 이러한 구별은 시스템의 목표와 사용한 입력 데이터의 종류에 기반한다.


(1) 효용 기반 추천 시스템


효용 기반 추천 시스템에서 효용 함수는 사용자가 아이템을 좋아할 확률을 계산하기 위해 제품 feature에 정의한다. 효용 기반 방식의 핵심 과제는 현재 사용 중인 사용자에게 적절한 효용 함수를 정의하는 것이다. 중요한 점은 협업, 콘텐츠 기반 또는 지식 기반 방식이건 상관없이 추천 시스템은 대상 사용자에 대한 인지된 가치에 근거해 추천한 아이템의 순위를 암묵적으로 매긴다는 것이다. 효용성 기반 시스템에서 효용 값은 우선순위(a priori)로 알려진 함수를 기반으로 한다. 이러한 의미에서 효용 함수는 일종의 외부 지식으로 간주할 수 있다.


4) 인구 통계학적 추천 시스템


인구 통계학적 추천 시스템에서 사용자에 대한 인구 통계학적 정보를 특정 인구 통계학적 평점 또는 구매 성향과 연결할 수 있는 classification 모델을 학습하는 데 활용한다. 대부분의 경우 인구 통계학적 정보를 추천 프로세스에서 추가적인 컨텍스트와 결합할 수 있다. 인구 통계학적 추천 시스템은 대개 독립 실행형으로 최상의 결과를 제공하지는 않지만 하이브리드 또는 앙상블 모델의 구성 요소로서 다른 추천 시스템의 힘을 크게 보탠다.

ex : 남성이 많이 구매한 제품, 20대가 많이 구매한 제품


5) 하이브리드와 앙상블 기반 추천 시스템


앞서 설명한 다양한 추천 시스템은 서로 다른 유형의 입력을 사용하고 다른 강점과 약점을 가지고 있다. 좀더 다양한 입력이 가능한 많은 경우에 동일한 작업에 대해 서로 다른 유형의 추천 시스템을 사용할 수 있다. 그런 경우 하이브리드화를 위한 많은 기회가 존재하는데, 여러 유형의 시스템으로부터 다양한 측면이 결합돼 최고의 시스템이 된다. Machine learning에서 앙상블 모델과 밀접한 관련이 있으며, 여러 추천 시스템을 결합해 다양한 데이터 소스의 힘을 결합하고, 특정 클래스의 추천 시스템의 효율성을 향상시킬 수 있다.


추천 시스템의 평가


Classification과 Regression moedling에서 누락된 클래스 변수는 feature 변수로부터 예측해야 한다. 추천 시스템에서는 행렬 원소 하나가 비어 있을 수 있으며 나머지 행렬에서 관측한 원소를 이용해 데이터 중심 방식으로 예측해야 할 수 있다. 이러한 의미에서, 추천 문제는 classification의 일반화로 볼 수 있다. 따라서 classification의 평가에서 사용하는 많은 모델은 약간의 수정을 거쳐 추천 시스템 평가에 사용할 수 있다.

댓글남기기