-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
문제
- 기사 제목, 본문, 댓글을 모두 합쳐 임베딩 시 댓글이 짧고 본문이 길어 임베딩 결과가 거의 동일하게 나옴
- 댓글 간 임베딩 차이가 사라져 모델 성능 저하 우려
원인
- 본문 길이가 길고 내용이 유사하거나 중복된 경우 임베딩 벡터가 평탄화됨
- 짧고 단순한 댓글이 임베딩에 미치는 영향력이 작음
- 전처리 과정에서 텍스트 차이가 희석될 가능성 존재
해결 방법
- 기사 제목과 댓글만 합쳐 임베딩 처리
- 댓글이 너무 짧을 경우 댓글 여러 개를 묶거나 키워드 추출 등으로 의미 보강
- 임베딩 입력 텍스트 길이와 특성에 따라 조절 필요
결과
- 제목 + 댓글 임베딩 시 벡터 간 차이가 뚜렷해져 문제 해결
Metadata
Metadata
Assignees
Labels
No labels