Skip to content

임베딩 방식 전환 - FastText에서 Sentence-BERT #1

@RealSan1

Description

@RealSan1

Issue: 임베딩 방식 전환 - FastText에서 Sentence-BERT

배경

초기 프로젝트에서는 FastText를 활용해 단어 단위 임베딩을 생성하여 댓글 데이터를 벡터화했습니다.
하지만 FastText 임베딩은 단어 수준 표현에 국한되어 문맥 정보를 충분히 반영하지 못하는 한계가 있었습니다.

문제점

  • 단어 임베딩의 평균값을 사용하다 보니 문장 내 의미 왜곡 가능성 존재
  • 봇과 휴면 댓글 간 미묘한 문맥 차이를 포착하기 어려움
  • 전반적인 분류 성능이 기대에 미치지 못함

개선 방향

문맥과 문장 단위 의미를 효과적으로 반영할 수 있는 Sentence-BERT 기반 임베딩으로 전환을 결정했습니다.

Sentence-BERT 도입 효과

  • 문장 단위 임베딩 생성으로 의미 손실 최소화
  • 한국어 특화 사전학습 모델 활용으로 표현력 강화
  • 봇 탐지 분류 정확도 및 재현율 향상 기대

작업 내용

  • FastText 기반 임베딩 코드 제거 및 Sentence-BERT 임베딩 코드 추가
  • 임베딩 벡터 저장 및 로딩 방식 유지하며 기존 파이프라인에 통합
  • 후속 모델 학습에서 임베딩 품질 개선 효과 확인 중

이 이슈는 임베딩 방식을 개선하여 모델 성능 향상을 목표로 합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions