IT/Graph

[논문 리뷰] LU, Hanqing 외 (2021). Unsupervised synonym extraction for document enhancement in e-commerce search.

TiaNote 2025. 5. 29. 07:37

안녕하세요, 티아입니다! 👋

오늘은 라벨링 없이도 동의어를 똑똑하게 찾아주는 그래프 기반 모델에 대해 소개해보려고 해요.
검색 품질을 어떻게 개선하는지, 함께 살펴보시죠!


 

논문 소개

이 논문은 전자상거래(e-commerce) 검색에서의 매칭 정확도를 높이기 위해 상품 설명 문서 자체를 동의어 기반으로 강화하는 방법을 제안하고 있습니다.

기존의 연구가 사용자 쿼리(query)를 확장하거나 재작성하는 방식에 집중하였다면, 본 연구는 사용자 쿼리가 아닌 상품 설명 문서에 동의어를 삽입하는 방식을 채택하고 있습니다. 또한 완전한 비지도 학습(unsupervised learning) 방식으로 작동하며, 추가적인 라벨링 없이도 동의어 추출이 가능하다는 특징을 갖고 있습니다.


논문의 핵심 방법론

1. 후보 동의어 생성

동의어 후보는 다음과 같은 다양한 자원을 기반으로 생성됩니다:

  • WordNet: 영어의 대표적인 의미 기반 사전으로, 단어 간 동의어 관계를 제공합니다. 예: [handbag, bag, purse, pocketbook]
  • Wikipedia 리디렉션 데이터: 위키백과의 리디렉션 페이지를 이용하여 약어-풀네임 등의 대체 관계를 파악합니다. 예: "CBA" → "Chinese Basketball Association"
  • 검색 로그 마이닝(Query Log Mining): 사용자 검색어와 클릭/구매된 상품 정보를 활용하여 동의어 후보를 생성합니다.

2. Query-Product 그래프 구축

검색 로그 데이터를 바탕으로 **이분 그래프(Query-Product Bipartite Graph)**를 구성합니다.

  • 노드(Node): 사용자 검색어(query)와 상품(product)
  • 엣지(Edge): 검색어와 상품 간의 클릭 또는 구매가 발생한 경우 연결
  • 엣지 가중치: 클릭률, 구매율 등의 행동 정보를 선형 결합하여 산정

이 그래프에 레이블 전파(Label Propagation) 알고리즘을 적용하여 유사한 검색어와 상품들을 하나의 클러스터로 묶습니다.


3. 간접 연결과 벡터화

각 쿼리는 연결된 상품들의 가중치를 기반으로 벡터화되며, 클러스터 내 검색어 간의 코사인 유사도를 계산합니다. 유사도가 특정 임계값 이상일 경우, 해당 검색어 쌍은 연관된 상품과 함께 동의어 후보로 간주됩니다.


4. n-gram 전이 확률 계산

생성된 검색어-상품 쌍에서 n-gram 쌍을 추출하고 다음과 같은 점수를 계산합니다:

  • 공출현 빈도(co-occurrence frequency)
  • 전이 확률(transition probability): 특정 n-gram이 다른 n-gram으로 전이될 가능성

이 점수의 곱을 기준으로 낮은 점수를 가진 n-gram 쌍은 필터링되며, 최종적으로 높은 신뢰도의 동의어 후보 쌍만 남게 됩니다.


5. 필터링 전략

  • BERT 기반의 임베딩 모델을 fine-tune하여 n-gram 쌍 간 의미 유사도를 평가합니다.
  • 임베딩 벡터 간의 코사인 유사도가 0.6 미만일 경우 해당 쌍을 제거합니다.

문서 강화 방식

최종적으로 선정된 동의어들은 상품 제목(product title) 내에서 추출된 단어들과 연결되며, 이를 별도의 인덱스 필드(index field)에 저장하여 검색에 활용됩니다.

다만, 모든 상품 텍스트 필드에 확장을 적용하지는 않습니다. 이유는 많은 텍스트 필드에 노이즈가 포함되어 있어, 불필요한 오류가 발생할 수 있기 때문입니다.