Quantcast
Channel: 簡睿隨筆
Viewing all articles
Browse latest Browse all 897

能使用GPU的OpenAI Whisper語音識別工具(ASR),超快超準確:WhisperDesktop

$
0
0

gh

和ChatGPT師出同門(OpenAI公司)的自動語音識別(ASR)工具-Whisper又有了新的增強:除了用C/C++改寫執行緩慢的Python外,也有高手幫它加上了翅膀-也能使用GPU執行了!

還在使用剪映上傳影片以取得字幕的朋友們,Whisper是離線執行,能充份保障影片隱私,現在又有了GPU的並行處理能力,不換Whiper更待何時?

可惜WihsperDesktop目前只有Windows版本,macOS與Linux的朋友們要再等一等。

1. 安裝與執行

  1. GitHub下載Zip檔後解壓縮即可
  2. 下載Model檔案,建議下載ggml-medium.bin檔案(1.5G),可在安裝資料夾建立 models 子目錄,將.bin檔存入
  3. 執行WhisperDesktop.exe,指定Model檔案,再逐一輸入資料後,按【Transcribe】即可產生需要的輸出格式

gh|700

2. 命令行

  • 須下載cli.zip
  • 命令行main.exe只接受音訊檔,因此先用 ffmpeg.exe 將影片檔轉轉換成.wav。
  • 音訊檔必須是16MHz
ffmpeg.exe -i "%~1" -ar 16000 -acodec pcm_s16le "%~1.wav"
  • 指定語音語言為中文(不指定則為auto自動偵測,可能會輸出成英文),輸出格式為.srt,使用medium模型
    main.exe -l zh -osrt -m models\ggml-medium.bin "%~1.wav"
  • 顯示在螢幕上的中文會是問號,但輸出檔案正常

3. 相關鏈接

4. 教學影片

##

您可能也會有興趣的類似文章


Viewing all articles
Browse latest Browse all 897

Trending Articles