-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
Issue: 임베딩 방식 전환 - FastText에서 Sentence-BERT
배경
초기 프로젝트에서는 FastText를 활용해 단어 단위 임베딩을 생성하여 댓글 데이터를 벡터화했습니다.
하지만 FastText 임베딩은 단어 수준 표현에 국한되어 문맥 정보를 충분히 반영하지 못하는 한계가 있었습니다.
문제점
- 단어 임베딩의 평균값을 사용하다 보니 문장 내 의미 왜곡 가능성 존재
- 봇과 휴면 댓글 간 미묘한 문맥 차이를 포착하기 어려움
- 전반적인 분류 성능이 기대에 미치지 못함
개선 방향
문맥과 문장 단위 의미를 효과적으로 반영할 수 있는 Sentence-BERT 기반 임베딩으로 전환을 결정했습니다.
Sentence-BERT 도입 효과
- 문장 단위 임베딩 생성으로 의미 손실 최소화
- 한국어 특화 사전학습 모델 활용으로 표현력 강화
- 봇 탐지 분류 정확도 및 재현율 향상 기대
작업 내용
- FastText 기반 임베딩 코드 제거 및 Sentence-BERT 임베딩 코드 추가
- 임베딩 벡터 저장 및 로딩 방식 유지하며 기존 파이프라인에 통합
- 후속 모델 학습에서 임베딩 품질 개선 효과 확인 중
이 이슈는 임베딩 방식을 개선하여 모델 성능 향상을 목표로 합니다.
Metadata
Metadata
Assignees
Labels
No labels