Skip to content

임베딩 값 동일 문제 #2

@RealSan1

Description

@RealSan1

문제

  • 기사 제목, 본문, 댓글을 모두 합쳐 임베딩 시 댓글이 짧고 본문이 길어 임베딩 결과가 거의 동일하게 나옴
  • 댓글 간 임베딩 차이가 사라져 모델 성능 저하 우려

원인

  • 본문 길이가 길고 내용이 유사하거나 중복된 경우 임베딩 벡터가 평탄화됨
  • 짧고 단순한 댓글이 임베딩에 미치는 영향력이 작음
  • 전처리 과정에서 텍스트 차이가 희석될 가능성 존재

해결 방법

  • 기사 제목과 댓글만 합쳐 임베딩 처리
  • 댓글이 너무 짧을 경우 댓글 여러 개를 묶거나 키워드 추출 등으로 의미 보강
  • 임베딩 입력 텍스트 길이와 특성에 따라 조절 필요

결과

  • 제목 + 댓글 임베딩 시 벡터 간 차이가 뚜렷해져 문제 해결

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions