2026年2月26日 星期四

自製開源語音辨識工具Q3-ASR本地圖形化介面工具分享

 我平時在剪輯教學影片或錄製課程時,最花時間的往往不是錄影,而是後製那精確到秒的字幕。雖然現在有很多雲端 AI 語音轉文字服務,但總有些顧慮:一是檔案太大上傳很慢,二是對於學生的隱私或是尚未公開的教材內容,我更傾向於在「本機端」處理。

軟體開發由來:追求隱私與效能的平衡

最近 Qwen 團隊開源釋出了強大的 Qwen3-ASR,不僅識別率叫板 Whisper,還支援了極其精準的 ForcedAligner(強制對齊)功能。為了讓這工具能更平易近人地讓老師們使用,我試著用google Antigravity把這個開源語音辨識工具寫成一個python的圖型介面工具,把繁瑣的程式碼包裝成這款點點滑鼠就能用的 GUI 工具。不必輸入指令,只要有一張顯卡(或是性能不錯的 CPU),在自家電腦就能完成高效轉錄。

軟體使用教學步驟:從安裝到辨識

這是一個詳細的教學影片,引導您從安裝到使用,輕鬆掌握 Qwen3-ASR 本機語音辨識工具。

1. 模型下載與載入:開啟程式後,在「選擇模型」選單挑選 0.6B(求快)或 1.7B(求準)。若需要精確的 SRT 字幕,請務必勾選「啟用時間戳」。點擊「載入/下載模型」,系統會自動從 HuggingFace 下載模型,首次使用需連網,之後可完全離線。

2. 進行音檔辨識:切換到「📁 上傳音檔」分頁,選擇你的影片或錄音檔。設定「來源語系」(支援繁中自動轉換)及「輸出格式」。按下「▶ 開始辨識」,程式會自動依據你的硬體配備(GPU 或 CPU)進行運算。

3. 麥克風即時模式:切換到「🎙️ 麥克風錄音」分頁。點擊「● 開始即時串流轉文」,你可以看到語音即時轉化成文字,適合會議記錄或現場演說。

4. 取得結果:辨識完成後,程式會直接跳出「📄 開啟輸出檔案」按鈕,結果預設儲存於系統的「下載」資料夾,非常貼心。

告別雲端服務的限制與疑慮,Qwen3-ASR 本機語音辨識工具讓您在隱私與效率之間取得完美平衡。

沒有留言:

張貼留言