パラ言語的情報を付与した合成音声に対する印象の違いの検証
非公開
鈴木研究室
2023 年度卒業
合成音声の第一音(一番最初の音)を中心にピッチシフトをした時の印象の違いを検証した。メラビアンの法則によると、第一印象は3秒で決まる。現在の合成音声は音声全体のピッチシフトが主流である。しかし、メラビアンの法則に則り、会話の序盤に注目してピッチシフトを行う事で、第一印象の操作が容易になると考える。今回は、会話の第一音を中心に合成音声をピッチシフトした時の印象の違いを検証した。

はじめに

現在、合成音声はAIスピーカー、音声案内、コミュニケーションロボット等人とのコミュニケーションに利用されている。そのため、感情を持つように感じる音調的特徴を付与する研究が活発である。この音調的特徴は藤崎氏[1]が提唱したもので、このような話し方の特徴はパラ言語的情報と呼ばれ、先行研究でも基本周波数や話速に着目している[3][4]。しかし、これは全体でのピッチシフトを数段階行うなど曖昧な指標で行われることが多い。

このような印象に関するものでメラビアンの法則がある。これによれば、第一印象は三秒で決まる。そこで、今回は会話の第一音(一番最初の音)を中心にピッチシフトをすれば第一印象の操作が容易になると考えた。

そこで、今回は第一音を中心にピッチシフトした際の印象の違いについて検証する。

 

調査

本研究では、周波数の間隔の指標として音階を用いる。

また、特定の音階にあてはめて音の高さを変えた際、どのように印象が変化するのかを明らかにするため、音の印象評価を心理学指標を用いて行う。

実験手順

本実験では、大学生を対象とする。以下に手順を示す

  1. 音声傾聴(用意した音声データの順番を無作為に入れ替え、1つずつ流し、聞いてもらう)
  2. 質問紙調査(音声を1つ聞くごとに、質問紙調査に回答してもらう。内容は7件法のSD法である)
  3. 口頭でのインタビュー(実験終了後、分析の参考にするため、口頭でのインタビューを行った)

評価指標

評価指標は、SD法による心理学的指標である。今回は「合成音声に対する印象の違い」を検証するため、主に他者の評価の際に用いるパーソナリティ認知の分野で使用される形容詞対を中心に13項目を選出した。

  • やわらかい―かたい
  • 暖かい―冷たい
  • 深みのある―金属製の
  • 親切な―不親切な
  • 責任感のある―無責任な
  • 親しみやすい―親しみにくい
  • 快い―不快な
  • 積極的な―消極的な
  • 明るい―暗い
  • 陽気な―陰気な
  • 社交的な―非社交的な
  • 強い―弱い
  • 真面目な―不真面目な

使用音声

本実験では、音の高さが異なる合成音声24個を用いた。音の高さの指標として音階を用い、発話の第一音を特定の音階に合わせる。後続の音は追従して音の高さを変化させた。これは、日本語の音調的特徴がピッチアクセントであるためである。

また、音階はファ2~ミ4までの24個とした。これは、合成音声が人間の声に寄せて発話されるものであるためである。寺澤ら[5]、櫻庭ら[6]の研究を参考に条件数を決定した。

合成音声は音声作成部にAmazonPollyの日本語女性話者Mizuki、音声加工部にAudacityを用いた。ピッチシフト後、ノイズリダレクションを行った。

分析結果

実験参加者は計27人(うち女性22名)であった。分析は以下の手順で行った。

  1. 因子分析
  2. 有意差の検定
  3. 因子得点算出

因子分析

本分析は固有値スクリープロットより共通因子数を2個とした。因子抽出法は一般化された最小二乗法、回転法はプロマックス回転を採用した。累積寄与率は51.176%であった。

共通因子1 は、「快い(感じの良い)-不快な(感じの悪い)」「親切な-不親切な」等の項目で高い因子負荷量を示したので、信頼の因子であると解釈した。共通因子は2 は、「陽気な-陰気な」「明るい-暗い」等の項目で高い相関を示したので、 活動の因子であると解釈した。

有意差の検定

Shapiro-wilk検定で正規性が確認されなかったため、フリードマン検定の後、Holm法で多重比較を行った。結果、有意差は少数箇所でしか確認されなかった。条件数に対し、サンプルデータ数が少なかったことが原因と考えられる。そのため、以降は因子得点の平均値を基に考察を行う。

因子得点算出

全体の傾向として、条件14 の184.997Hz を境に信頼の因子ではF0 が低いほど因子得点が低く、活動の因子では, F0 が高いほど因子得点が低く評価が高い。その中でも、特に値が突出している、または全体の傾向と異なるのが条件15 及び条件9 である。条件15 の195.998Hz(ソ3/G3) は信頼、活動の因子共に一番評価が高い。同じソの音階である条件3 は全体の傾向に則っているため、単純に音階がソだからではなく高周波数という要素も関係すると考えられる。今回実験に用いた音声の加工前のF0 は180Hz なので、それより高くなおかつソの音階である本条件が評価が高くなったと考えられる。対して, 条件9の138.591Hz(ド#3/C#3) は全体の傾向に則らず、 信頼、活動の因子共に評価が低い。今回は第一音を138.591Hz としたため、 それ以降のF0 はそれよりも高い。寺澤ら、櫻庭らの研究より、 男性が無理矢理高い声を出した、もしくは女性が無理矢理低い声を出し不誠実という印象を受けた可能性が高い。

 

研究方法

まとめ

本研究では人間のソ音発声のテクニックをもとに、パラ言語的情報の一つである音の高さを音階知識を用いて合成音声に付与した。そのうえで、音の高さが変わった合成音声の印象の違いを検証した。実験の結果、F0 が低いと信頼感が増し、F0 が高いと活動感が増すが、195.998Hz, 138.591Hz のように傾向と異なる印象を持たれた条件も散見された。本研究では、純正律の88 ある音階のうち24 個を条件として第一音のF0 を変化させた。今後はこれを指標とし、音声合成システムに導入し、 印象の操作が容易になることを期待する。

参考文献

[1] 藤崎博也. 音声の音調的特徴のモデル化とその応用. 文部
省科学研究費特定領域研究「韻律に着目した音声言語情
報処理の高度化」研究成果報告書, 2005.
[2] 福田健. きれいな敬語の使い方・話し方. 主婦の友社,
2010.
[3] 内田照久, 中畝菜穂子. 声の高さと発話速度が話者の
性格印象に与える影響. 心理学研究, Vol. 75, No. 5, pp.
397–406, 2004.
[4] 林里奈, 加藤昇平. 人-ロボット間の対話における音声基
本周波数の同調がストレス緩和作用に与える影響. 知能
と情報, Vol. 30, No. 6, pp. 832–839, 2018.
[5] 寺澤るり子, 垣田有紀, 平野実. 平均呼気流率, 声の基本周
波数および声の強さの同時測定. 音声言語医学, Vol. 25,
No. 3, pp. 189–207, 1984.
[6] 櫻庭京子, 今泉敏, 峯松信明, 田山二朗, 堀川直史. 女性と
判定される声の特徴―性同一性障害者の話声位―. 音声
言語医学, Vol. 50, No. 1, pp. 14–20, 2009.

研究を終えて

実験が対面で手順も多い中、実験に協力していただいた方、並びにご指導ご鞭撻いただいた鈴木優先生に感謝申し上げます。

メニュー