Skip to content

Sunlight-zero/sentence-audio-extractor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

这是一份在 Gemini 辅助下编写的小服务端,用途为:在一个视频中,每给出一个日语句子,就截取出视频对应的音频,并且可以手工拖动以调整截取范围。

当前技术流:

  • 使用 Whisper 从日语音频提取日语文字稿
    • 通过 prompt 和设置 suppress_tokens 让 whisper 的转写结果几乎全是假名
    • whisper 仍然可能输出少量汉字,需要后处理步骤
  • 使用在线 LLM 将日语文字稿(汉字假名交替文)转写为全平假名
  • 使用字符串模糊匹配方法找出精确位置
    • 使用 C++ 和编辑距离法实现了字符串模糊匹配

由于 Whisper 的存在,后端的运行需要 GPU,因此速度较慢。

About

从视频中自动提取日语句子的语音

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published