語音合成

通過機械產生人造語音的技術

語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術(又稱文語轉換技術)隸屬於語音合成。

名詞解釋


語音合成是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。

基本結構


(1)語言學處理
在文語轉換系統中起著重要的作用,主要模擬人對自然語言的理解過程——文本規整、詞的切分、語法分析和語義分析,使計算機對輸入的文本能完全理解,並給出后兩部分所需要的各種發音提示。
(2)韻律處理
為合成語音規劃出音段特徵,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。
(3)聲學處理
根據前兩部分處理結果的要求輸出語音,即合成語音。

語音合成方法


1. 共 振 峰 合 成
----語 音 合 成 的 理 論 基 礎 是 語 音 生 成 的 數 學 模 型。該 模 型 語 音 生 成 過 程 是 在 激 勵 信 號 的 激 勵 下,聲 波 經 諧 振 腔(聲 道),由 嘴 或 鼻 輻 射 聲 波。因 此,聲 道 參 數、聲 道 諧 振 特 性 一 直 是 研 究 的 重 點。在 圖1 所 示 的 某 一 語 音 的 頻 率 響 應 圖 中,標 有Fp1、Fp2、Fp3 … … 處 為 頻 率 響 應 的 極 點,此 時,聲 道 的 傳 輸 頻 率 響 應 有 極 大 值。習 慣 上,把 聲 道 傳 輸 頻 率 響 應 上 的 極 點 稱 之 為 共 振 峰,而 語 音 的 共 振 峰 頻 率(極 點 頻 率)的 分 布 特 性 決 定 著 該 語 音 的 音 色。
----音 色 各 異 的 語 音 具 有 不 同 的 共 振 峰 模 式,因 此,以 每 個 共 振 峰 頻 率 及 其 帶 寬 作 為 參 數,可 以 構 成 共 振 峰 濾 波 器。再 用 若 干 個 這 種 濾 波 器 的 組 合 來 模 擬 聲 道 的 傳 輸 特 性(頻 率 響 應),對 激 勵 源 發 出 的 信 號 進 行 調 制,再 經 過 輻 射 模 型 就 可 以 得 到 合 成 語 音。這 就 是 共 振 峰 合 成 技 術 的 基 本 原 理。基 於 共 振 峰 的 理 論 有 以 下 三 種 實 用 模 型。
(圖)語音合成
(圖)語音合成
級 聯 型 共 振 峰 模 型 在 該 模 型 中,聲 道 被 認 為 是 一 組 串 聯 的 二 階 諧 振 器。該 模 型 主 要 用 於 絕 大 部 分 元 音 的 合 成。
----並 聯 型 共 振 峰 模 型 許 多 研 究 者 認 為,對 於 鼻 化 元 音 等 非 一 般 元 音 以 及 大 部 分 輔 音,上 述 級 聯 型 模 型 不 能 很 好 地 加 以 描 述 和 模 擬,因 此,構 築 和 產 生 了 並 聯 型 共 振 峰 模 型。
----混 合 型 共 振 峰 模 型 在 級 聯 型 共 振 峰 合 成 模 型 中,共 振 峰 濾 波 器 首 尾 相 接;而 在 並 聯 型 模 型 中,輸 入 信 號 先 分 別 通 過 幅 度 調 節 再 加 到 每 一 個 共 振 峰 濾 波 器 上,然 后 將 各 路 的 輸 出 疊 加 起 來。將 兩 者 比 較,對 於 合 成 聲 源 位 於 聲 道 末 端 的 語 音(大 多 數 的 元 音),級 聯 型 合 乎 語 音 產 生 的 聲 學 理 論,並 且 無 需 為 每 一 個 濾 波 器 分 設 幅 度 調 節;而 對 於 合 成 聲 源 位 於 聲 道 中 間 的 語 音(大 多 數 清 擦 音 和 塞 音),並 聯 型 則 比 較 合 適,但 是 其 幅 度 調 節 很 復 雜。基 於 此 種 考 慮,人 們 將 兩 者 結 合 在 一 起,提 出 了 混 和 型 共 振 峰 模 型,如 圖2 所 示。
(圖)語音合成
(圖)語音合成
事 實 上,上 述 三 種 共 振 峰 模 型 在 實 際 中 都 得 到 了 成 功 的 應 用。例 如:Fant 的OVE 系 統 就 采 用 了 級 聯 型 的 共 振 峰 模 型;Holmes 合 成 器 采 用 的 是 並 聯 型 的 共 振 峰 模 型;而 最 為 典 型 也 是 最 為 成 功 的Klatt 合 成 器 則 構 築 在 混 合 型 共 振 峰 模 型 的 基 礎 之 上。
----在 漢 語 語 音 合 成 方 面,研 究 人 員 研 制 出 了 一 些 基 於 共 振 峰 模 型 的 成 功 的 應 用 系 統。如 社 科 院 語 言 所 的 SIFS 合 成 器、中 科 院 聲 學 所 的KX 1 系 統 中 基 於Holmes 的 並 聯 型 共 振 峰 合 成 器 模 型,而 同 樣 由 中 科 院 聲 學 所 開 發 的 第 二 代 共 振 峰 合 成 器KX FSS 則 基 於Klatt 合 成 器。
----共 振 峰 模 型 是 基 於 對 聲 道 的 一 種 比 較 准 確 的 模 擬,因 而 可 以 合 成 出 自 然 度 比 較 高 的 語 音,另 外 由 於 共 振 峰 參 數 有 著 明 確 的 物 理 意 義,直 接 對 應 於 聲 道 參 數,因 此,可 以 容 易 利 用 共 振 峰 描 述 自 然 語 流 中 的 各 種 現 象,並 且 總 結 聲 學 規 則,最 終 用 於 共 振 峰 合 成 系 統。
----但 是,人 們 同 時 也 發 現 該 技 術 有 明 顯 的 弱 點。首 先 由 於 它 是 建 立 在 對 聲 道 的 模 擬 上,因 此,對 於 聲 道 模 型 的 不 精 確 勢 必 會 影 響 其 合 成 質 量。另 外,實 際 工 作 表 明,共 振 峰 模 型 雖 然 描 述 了 語 音 中 最 基 本 最 主 要 的 部 分,但 並 不 能 表 征 影 響 語 音 自 然 度 的 其 他 許 多 細 微 的 語 音 成 分,從 而 影 響 了 合 成 語 音 的 自 然 度。另 外,共 振 峰 合 成 器 控 制 十 分 復 雜,對 於 一 個 好 的 合 成 器 來 說,其 控 制 參 數 往 往 達 到 幾 十 個,實 現 起 來 十 分 困 難。
----基 於 這 些 原 因,研 究 者 繼 續 尋 求 和 發 現 其 他 新 的 合 成 技 術。人 們 從 波 形 的 直 接 錄 制 和 播 放 得 到 啟 發,提 出 了 基 於 波 形 拼 接 的 合 成 技 術,LPC 合 成 技 術 和PSOLA 合 成 技 術 是 其 中 的 代 表。與 共 振 峰 合 成 技 術 不 同,波 形 拼 接 合 成 是 基 於 對 錄 制 的 合 成 基 元 的 波 形 進 行 拼 接,而 不 是 基 於 對 發 聲 過 程 的 模 擬。
LPC 參 數 合 成
----波 形 拼 接 技 術 的 發 展 與 語 音 的 編、解 碼 技 術 的 發 展 密 不 可 分,其 中LPC 技 術(線 性 預 測 編 碼 技 術)的 發 展 對 波 形 拼 接 技 術 產 生 了 巨 大 的 影 響。
----LPC 合 成 技 術 本 質 上 是 一 種 時 間 波 形 的 編 碼 技 術,目 的 是 為 了 降 低 時 間 域 信 號 的 傳 輸 速 率。
----對 於 利 用LPC 合 成 技 術 來 進 行 漢 語 語 音 合 成 和 漢 語 文 語 轉 換 的 研 究,中 科 院 聲 學 所 在 這 方 面 做 了 大 量 的 工 作。1987 年,他 們 引 進 了 多 脈 沖 激 勵LPC 技 術,1989 年 又 引 入 矢 量 量 化,之 后,1993 年,他 們 引 入 碼 激 勵 技 術,他 們 的 這 些 工 作 對 於LPC 合 成 技 術 在 漢 語 合 成 方 面 的 運 用 做 出 了 重 要 的 貢 獻。
----LPC 合 成 技 術 的 優 點 是 簡 單 直 觀。其 合 成 過 程 實 質 上 只 是 一 種 簡 單 的 解 碼 和 拼 接 過 程。另 外,由 於 波 形 拼 接 技 術 的 合 成 基 元 是 語 音 的 波 形 數 據,保 存 了 語 音 的 全 部 信 息,因 而 對 於 單 個 合 成 基 元 來 說 能 夠 獲 得 很 高 的 自 然 度。
----但 是,由 於 自 然 語 流 中 的 語 音 和 孤 立 狀 況 下 的 語 音 有 著 極 大 的 區 別,如 果 只 是 簡 單 地 把 各 個 孤 立 的 語 音 生 硬 地 拼 接 在 一 起,其 整 個 語 流 的 質 量 勢 必 是 不 太 理 想 的。而LPC 技 術 從 本 質 上 來 說 只 是 一 種 錄 音 + 重 放,對 於 合 成 整 個 連 續 語 流LPC 合 成 技 術 的 效 果 是 不 理 想 的。因 此,LPC 合 成 技 術 必 須 和 其 他 技 術 相 結 合,才 能 明 顯 改 善LPC 合 成 的 質 量。
----一 種 典 型 的 基 於 單 音 節 和VQLPC(矢 量 量 化 的LPC)技 術 的 文 語 轉 換 系 統 原 理 圖 如 圖3 所 示。
(圖)語音合成
(圖)語音合成
2. PSOLA 合 成 技 術
----20 世 紀80 年 代 末 提 出 的PSOLA 合 成 技 術(基 音 同 步 疊 加 技 術)給 波 形 拼 接 合 成 技 術 注 入 了 新 的 活 力。PSOLA 技 術 著 眼 於 對 語 音 信 號 超 時 段 特 征 的 控 制,如 基 頻、時 長、音 強 等 的 控 制。而 這 些 參 數 對 於 語 音 的 韻 律 控 制 以 及 修 改 是 至 關 重 要 的,因 此,PSOLA 技 術 比LPC 技 術 具 有 可 修 改 性 更 強 的 優 點,可 以 合 成 出 高 自 然 度 的 語 音。
----PSOLA 技 術 的 主 要 特 點 是:在 拼 接 語 音 波 形 片 斷 之 前,首 先 根 據 上 下 文 的 要 求,用PSOLA 算 法 對 拼 接 單 元 的 韻 律 特 征 進 行 調 整,使 合 成 波 形 既 保 持 了 原 始 發 音 的 主 要 音 段 特 征,又 能 使 拼 接 單 元 的 韻 律 特 征 符 合 上 下 文 的 要 求,從 而 獲 得 很 高 的 清 晰 度 和 自 然 度。
----如 何 將PSOLA 技 術 應 用 於 漢 語 文 語 轉 換 系 統,國 內 許 多 學 校 和 科 研 單 位 對 此 進 行 了 大 量 廣 泛 深 入 的 研 究。清 華 大 學、北 方 交 大、中 科 院 聲 學 所 等 在 對PSOLA 技 術 研 究 的 基 礎 上,先 后 開 發 出 了 基 於 波 形 拼 接 的 漢 語 文 語 轉 換 系 統,並 且 對 於 如 何 進 一 步 完 善 該 技 術,如 何 進 一 步 改 善 合 成 語 音 的 自 然 度 等 都 提 出 了 一 些 具 體 措 施。
----PSOLA 技 術 保 持 了 傳 統 波 形 拼 接 技 術 的 優 點,簡 單 直 觀,運 算 量 小,而 且 還 能 方 便 地 控 制 語 音 信 號 的 韻 律 參 數,具 有 合 成 自 然 連 續 語 流 的 條 件,得 到 了 廣 泛 的 應 用。
----但 是,PSOLA 技 術 也 有 其 缺 點。首 先, PSOLA 技 術 是 一 種 基 音 同 步 的 語 音 分 析/ 合 成 技 術,首 先 需 要 准 確 的 基 因 周 期 以 及 對 其 起 始 點 的 判 定。基 音 周 期 或 其 起 始 點 的 判 定 誤 差 將 會 影 響PSOLA 技 術 的 效 果。其 次,PSOLA 技 術 是 一 種 簡 單 的 波 形 映 射 拼 接 合 成,這 種 拼 接 是 否 能 夠 保 持 平 穩 過 渡 以 及 它 對 頻 域 參 數 有 什 么 影 響 等 並 沒 有 得 到 解 決,因 此,在 合 成 時 會 產 生 不 理 想 的 結 果。
LMA 聲 道 模 型
----隨 著 人 們 對 語 音 合 成 的 自 然 度 和 音 質 的 要 求 越 來 越 高,PSOLA 算 法 表 現 出 對 韻 律 參 數 調 整 能 力 較 弱 和 難 以 處 理 協 同 發 音 的 缺 陷,因 此,人 們 又 提 出 了 一 種 基 於LMA 聲 道 模 型 的 語 音 合 成 方 法。這 種 方 法 具 有 傳 統 的 參 數 合 成 可 以 靈 活 調 節 韻 律 參 數 的 優 點,同 時 又 具 有 比PSOLA 算 法 更 高 的 合 成 音 質。
----目 前,主 要 的 語 音 合 成 技 術 是 共 振 峰 合 成 技 術 和 基 於PSOLA 算 法 的 波 形 拼 接 合 成 技 術。這 兩 種 技 術 各 有 所 長,共 振 峰 技 術 比 較 成 熟,有 大 量 的 研 究 成 果 可 以 利 用,而 PSOLA 技 術 則 是 比 較 新 的 技 術,具 有 良 好 的 發 展 前 景。
----過 去 這 兩 種 技 術 基 本 上 是 互 相 獨 立 發 展 的,現 在 許 多 學 者 開 始 研 究 它 們 兩 者 之 間 的 關 系,試 圖 將 兩 者 有 效 地 結 合 起 來,從 而 合 成 出 更 加 自 然 的 語 流。例 如 清 華 大 學 的 研 究 人 員 進 行 了 將 共 振 峰 修 改 技 術 應 用 於PSOLA 算 法 的 研 究,並 用 於Sonic 系 統 的 改 進,研 制 出 了 具 有 更 高 自 然 度 的 漢 語 文 語 轉 換 系 統。
3. 基於隱馬爾可夫模型的語音合成
近年來,基於隱馬爾可夫模型(HMM)的語音合成系統得到廣泛的重視和應用。與一直以來語音合成方法的主流――基於大語料庫的拼接合成方法相比,基於隱馬爾可夫模型的語音合成系統優勢在於系統結構簡單,基本不需要任何語言學知識指導系統訓練,構建時間短,構建過程基本不需要人工干預,而由於系統屬於參數化合成方法,系統的合成結果靈活多變,可以很容易的應用於多個發音人,多種發音風格,多種情感表達的需求中。
基於HMM的語音合成方法主要分為兩個階段:訓練階段和合成階段。首先對用於訓練的語料進行參數提取(包括頻譜參數和基頻參數,本文用到的頻譜參數為LSP線性頻譜對參數)。HMM的觀察向量可分為譜參數和基頻參數兩個部分,其中譜參數部分採用連續概率分佈HMM進行建模,基頻部分採用多空間概率分佈HMM(MSD-HMM)進行建模。在合成階段,首先對給定的待合成文本進行上下文分析,並將文本轉換成模型的單元序列。然後根據基於HMM語音合成方法的參數生成演演算法,同時考慮語音參數的靜態參數和動態參數,得到連續的目標語音參數序列,最後通過語音合成器合成出待合成語音。
基於HMM的語音合成方法雖然有系統易小型化、靈活多變等特點,但是和傳統的拼接合成相比,還是有音質下降的缺點。傳統的拼接合成方法由於是將真實的語音片段通過選音演演算法拼接在一起所以保留了原始語音片斷的音質。而基於HMM的語音合成方法和其他的參數化語音合成方法一樣,通過了一次語音編碼解碼的過程,不可避免的會造成合成音質的下降。另外,在HMM參數估計的過程中的統計方法使得頻譜參數趨於平均化;同時,由於模型自身拓撲結構的限制,模型對頻譜參數在時域方向變化的描述也存在局限性。這兩種在頻譜參數層上導致合成語音音質下降的現象本文稱之為頻域過平滑和時域過平滑。
為了解決這些問題,我們提出了基於離散HMM和連續HMM相結合的思路,這種方法在保持系統靈活性的同時,最大限度的保留了語音的聲學特徵,使得語音合成結果基本接近大語料的語音合成系統的清晰度。這一方法的合成結果不僅要優於傳統HTS的合成結果,而且能夠有效的在各種應用場合進行實際應用。
(圖)語音合成
(圖)語音合成