기존의 보드게임의 문서는 (보드게임의 제목, 태그, 태그 설명, 유저평 요약, 게임 설명 요약) 으로 이루어져 있다.
하지만 보드게임의 태그는 거의 대부분의 게임이 비슷하고, 해당 게임의 독창적인 특징을 나타내는 태그는 다른 태그에 비해 비중이 적었다. (즉 게임을 추천하는 데에는, 독창적인 특징의 키워드가 행사하는 영향력이 다른 태그에 비해 적었을 것이다.)
가상의 보드게임 4종류를 예시로 든 모습이다. 실제로 유저는 각각의 게임을 완전히 다른 게임으로 인식하지만, 모델에서는 각각의 게임을 유사한 게임으로 판별한다.
이런 문제를 해결하기 위해 고군분투 하던 중, TF-IDF 임베딩에 대해 알게 되었다.
04-04 TF-IDF(Term Frequency-Inverse Document Frequency)
TF-IDF에 대해 잘 요약되어 있는 위키독스 문서.
TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단합니다. TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것입니다. 즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 마련이기 때문에 자연스럽게 불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 됩니다.
해당 임베딩 기법을 적용하여, 게임에 대한 문서에서 자주 등장하는 태그와 단어의 가중치는 낮추고 특정 게임에서만 독창적으로 등장하는 태그에 대한 가중치는 높이려고 했다.
기존 모델에 추가로 TF-IDF 임베딩을 적용하여 각 태그의 가중치를 다르게 설정.
알고리즘 개선 전
알고리즘 개선 후. 실제로 비슷하다고 생각했던 게임들끼리 잘 뭉쳐있는 모습을 확인하였다.
보드게임 ‘마헤’와 유사한 게임들의 리스트.
보드게임 ‘**마헤’**는 기본적으로 주사위 컴포넌트를 사용하는 게임일 뿐만 아니라, 게임 내에서 본인의 말을 조금이라도 더 이동시키기 위해서, 자칫하면 원점으로 돌아갈 수도 있는 위험한 도박을 할 지 말지 선택하는 성향의 게임이다.
실제로 아래에 추천 된 ‘캔트스탑’ 및 ‘스트라이크’ 게임의 경우에도, 단순히 주사위를 사용하는 게임일 뿐만 아니라, 위에서 언급한 도박적인 요소가 들어가는 게임이다.
이를 통해 게임에 대한 추상적인 개념(주사위 사용 등) 뿐 만 아니라, 게임에 내재되어있는 구체적인 메커니즘에 대해서도 추천이 잘 진행되었음을 알 수 있었다.