YouTube 和 TikTok 上成長最快的一些頻道從不露臉。產品操作示範、歷史解說、房地產導覽、食譜幻燈片——它們全都由同樣兩種素材構成:一組準備妥當的圖片,加上聽起來自然的旁白配音。不需要攝影機、不需要麥克風,也不需要出鏡的主持人。
問題在於,這兩種素材通常都做得很糟。模糊、尺寸不對的圖片被硬拉伸去填滿畫面,機器人般的旁白讓觀眾幾秒內就划走。本指南涵蓋把兩者都做對的完整工作流程:正確準備圖片、生成聽起來像真人的旁白,以及組裝出一支觀眾真的會看完的影片。
無真人出鏡影片公式
每支旁白幻燈片影片都有相同的結構:
| 組成部分 | 需要什麼 | 常見錯誤 |
|---|---|---|
| 圖片 | 正確尺寸、一致風格、載入快速的素材 | 畫面被拉伸或出現像素化 |
| 腳本 | 口語化、為「耳朵」而寫 | 逐字照唸部落格文章 |
| 配音 | 自然的節奏與語調 | 單調呆板的機器 TTS |
| 組裝 | 圖片切換時間對齊旁白 | 句子唸到一半就切換投影片 |
前三項做對了,組裝這一步幾乎只是機械操作。我們按順序逐一說明。
第一步:為影片準備圖片
影片平台對圖片尺寸毫不留情。一張在網頁上看起來不錯的圖片,放進 1080p 畫面裡就會變成模糊、上下加黑邊的災難。
調整尺寸以符合影片畫面
先決定你的格式,再把每張圖片調整尺寸使其相符:
- YouTube/橫向:1920×1080
- TikTok/Reels/Shorts:1080×1920
- 正方形(動態消息):1080×1080
在剪輯前把所有圖片統一調整到完全相同的尺寸,能徹底消除畫面拉伸的問題,也讓時間軸作業快上許多。
裁切以優化構圖
原始圖片很少剛好符合你的長寬比。使用裁切工具有意識地為每個畫面取景——讓主體置中或落在三分構圖線上,並裁掉浮水印、介面元素和多餘的空白。
匯入前先壓縮
影片剪輯軟體遇到整個資料夾的 8MB 圖片會卡頓,雲端剪輯器用更小的檔案也上傳得更快。用圖片壓縮工具處理一遍,可以把檔案大小減少 70–90%,在影片解析度下肉眼看不出差異。
保護並清理你的視覺素材
兩個創作者常常忽略、直到出事才後悔的步驟:
- 如果你的投影片包含他人的截圖、人臉或個人資料,發布前先把敏感區域模糊處理
- 如果素材是你自己拍攝的,記得移除 EXIF 中繼資料——GPS 座標已經讓不只一個「匿名」頻道曝光了身分
- 想經營品牌?加上低調的浮水印,被轉發的片段仍會把流量導回你這裡
第二步:生成自然的 AI 配音
多數無真人出鏡影片的成敗就在這一步。觀眾可以原諒普通的畫面,但無法原諒機器人般的旁白。
現代 AI 文字轉語音(TTS)已經跨過了那條線:一般聽眾分不出它和真人朗讀的差別。我們推薦 AnySpeech——一個專為這種工作流程打造的 AI 配音平台:
- 開啟 anyspeech.io 並貼上你的腳本
- 從涵蓋 50 多種語言、100 多種 AI 聲音中挑選——反覆試聽,直到找到符合你頻道調性的聲音
- 生成並下載 MP3 格式的旁白
- 把它放進影片剪輯軟體,作為主音訊軌
有幾項功能對影片創作者特別重要:
- 長篇支援——單次最多可處理 50,000 字元的腳本,20 分鐘的解說影片不需要分段拼接
- 聲音複製——錄製 10–30 秒你自己的聲音,之後每支影片都能用它旁白,不必再重錄
- 多聲音旁白——為不同角色指定不同聲音,適合對話式內容
- 內含商業使用授權——營利頻道也能安心使用
平台提供免費方案讓你先測試聲音再決定,而這正是挑選聲音的正確方式:用你最中意的三個候選聲音生成同一段文字,然後用手機喇叭聽——因為你的觀眾就在那裡。
為「耳朵」而寫,不是為「眼睛」而寫
不管用什麼工具來朗讀,腳本本身才決定它聽起來有多像真人:
- **句子要短。**十五個字以內。冗長的子句用任何聲音唸出來都顯得生硬。
- 用口語縮寫。「It's」和「don't」聽起來像說話;「it is」和「do not」聽起來像在唸文件。
- **標點就是節奏。**逗號和句號會產生停頓——在真人會換氣的地方使用它們。
- **自己先大聲唸一遍。**任何讓你卡住的地方,AI 聲音也會卡住。
第三步:組裝影片並調整時間
有了最佳化過的圖片和完成的配音,在任何剪輯軟體(CapCut、DaVinci Resolve、Canva 或平台內建工具)裡組裝只需要幾分鐘:
- 先匯入 MP3 旁白——它決定影片總長度
- 把圖片排上時間軸,在句子結束處切換,而不是固定秒數切換
- 每張圖片停留 4–8 秒;超過這個長度就需要緩慢的縮放或平移(「Ken Burns」效果)來維持畫面活力
- 加上字幕——大多數行動裝置觀眾一開始是靜音觀看的,字幕能吸引他們打開聲音
匯出檢查清單
- ✅ 解析度與圖片準備階段一致(至少 1080p)
- ✅ 音訊峰值約在 −3dB——AI 旁白本身很乾淨,別讓大聲的配樂蓋過它
- ✅ 前 3 秒放上你最強的一張圖——那是讓人停止滑動的黃金窗口
- ✅ 縮圖另外匯出並壓縮以加快載入
常見問題
無真人出鏡影片真的有好表現嗎?
有——解說、清單盤點、教學和故事旁白類頻道,經常在沒有真人出鏡的情況下達到數百萬次觀看。平台排名看的是觀看時長和留存率,而不是畫面裡有沒有人。
AI 配音可以營利嗎?
請確認你所用工具的授權條款。AnySpeech 內含商業使用授權,涵蓋營利的 YouTube 頻道、客戶委託案和廣告。在平台端,YouTube 的政策針對的是低投入的自動化內容——在原創、經過剪輯的畫面上搭配真實腳本的 AI 旁白完全沒問題。
每分鐘影片需要多少張圖片?
以每張投影片 4–8 秒計算,請準備每分鐘 8–15 張圖片。一支 5 分鐘的影片需要 40–75 張準備好的圖片——這正是批次調整尺寸和壓縮在這套工作流程中如此重要的原因。
影片剪輯該用什麼圖片格式?
JPG 和 PNG 在所有剪輯軟體裡都可用。截圖和文字較多的投影片用 PNG(邊緣更銳利),照片用 JPG(檔案更小)。如果你的素材是 WebP,請先把 WebP 轉成 JPG——部分桌面剪輯軟體仍然不支援匯入 WebP。
我可以製作自己不會說的語言的影片嗎?
這是 AI 旁白最大的突破之一。把腳本翻譯好,用 50 多種語言中的任何一種生成母語水準的配音,再重複使用同一套畫面——一組圖片就能變成十支在地化影片。
總結
無真人出鏡影片的製作流程就是三個明確的步驟:
- 準備圖片——調整尺寸到精確的畫面規格、裁切優化構圖、壓縮加快剪輯,並清理中繼資料和敏感區域
- 生成旁白——寫一份口語化腳本,再用 anyspeech.io 把它變成自然的配音
- 組裝——在句子結束處切換圖片、全程上字幕、用前 3 秒抓住觀眾
不需要攝影機,不需要麥克風——只要準備妥當的圖片,加上一個聽起來用心的聲音。這就是完整的製作配備。

