这是一份在 Gemini 辅助下编写的小服务端,用途为:在一个视频中,每给出一个日语句子,就截取出视频对应的音频,并且可以手工拖动以调整截取范围。
当前技术流:
- 使用 Whisper 从日语音频提取日语文字稿
- 通过 prompt 和设置
suppress_tokens让 whisper 的转写结果几乎全是假名 - whisper 仍然可能输出少量汉字,需要后处理步骤
- 通过 prompt 和设置
- 使用在线 LLM 将日语文字稿(汉字假名交替文)转写为全平假名
- 使用字符串模糊匹配方法找出精确位置
- 使用 C++ 和编辑距离法实现了字符串模糊匹配
由于 Whisper 的存在,后端的运行需要 GPU,因此速度较慢。