1、比如字幕提取可以用gemini2.5pro或者什麼多模態模型去識別音頻,提取字幕 2、翻譯字幕也可以用直接調用大模型API翻譯
1、比如字幕提取可以用gemini2.5pro或者什麼多模態模型去識別音頻,提取字幕
2、翻譯字幕也可以用直接調用大模型API翻譯