【結果】SOC 2023 No.3. AIアナウンス、どう感じる？

2023/7/20 18:492024/3/18 17:36

Sound One ポータルサイト / Sound One サポートセンター / Sound One Challenge 2023 結果発表！ / 【結果】SOC 2023 No.3. AIアナウンス、どう感じる？

　Sound One Challenge2023でご回答いただいた「AIアナウンス」のAudio Testの結果報告です！

　ダイジェスト版はこちらにございます。

●背景と目的

昨今、多くの音声コンテンツが合成音声へ置き換えが進んでいます。

でもその音声を聴くのはやはり人です。そこでSound OneのAudioTestと皆さんの感性でAIの合成音声を評価してみようと考えました。

私たちが思いついたアイディアは、東海道新幹線の車内アナウンスです。

＜アナウンス＞

「只今、進行方向右手側に、富士山が大変綺麗にご覧いただけます」

このアナウンスをする「声」を「親しみ」と「安心感」の観点から選ぼうとする時、

どんな声が支持されるのか？また、年齢層やその他の視点で変わるのでしょうか？

Sound Oneならこの調査を様々な年齢層と性別にわたって実施することができるのです。

●音声合成ツール

音声合成にはVOICEVOX（ボイスボックス）を使用しています。

VOICEVOXはテキスト読み上げ用音声合成ソフトウェアです。公式HP（https://voicevox.hiroshiba.jp/）

AIによるディープラーニングが組み込まれており、文字単位での細かなイントネーションの調整が可能な優れたものです。

私の駄文を「ずんだもん」が流暢に読んだ瞬間、私は楽しんでいた動画サイトの仕掛けを知りました（本当です）。

●Audio Test作成

■音源

さて、VOICEVOXの豊富な音声ライブラリがありどれも良い。

そこから選んだのは７つの声。

ずんだもん：（VOICEVOX ）

九州そら：（VOICEVOX ）

春日部つむぎ：（VOICEVOX ）

猫使ビィ：（VOICEVOX ）

春歌ナナ：（VOICEVOX ）

櫻歌ミコ：（VOICEVOX ）

ナースロボ＿タイプT：（VOICEVOX ）

なぜ女性ばかりか？　作業が容易で楽しかったからです。

私の技量では男性の声は調整がやや難しく、専ら嗜好も手伝って全部が女性になりました。

VOICEVOXの音声ライブラリには「実装スタイル」という、声の性質を示す指標があります。

例えば、ツンツンやセクシーなどがありますが、今回は自分の聴感と嗜好に基づいて選択しています。

また、すべての声には個別のキャラクターがあります。

一例として、

他のキャラクターもとても魅力的です。

■評価語

「親しみ」と「安心感」を感じない声とはどう表現される声でしょう？

「親しみ」の対義語は苦労しましたが、以下に決定しました。

「親しみがある」に対して「近寄りがたい」

「安心感がある」に対して「不安を覚える」

声によっては「近寄りがたく」「不安を覚える」に寄った評価も出ましたが、

設定がファンタジックな設定のキャラクターならベストマッチ！という事でご容赦ください。

■説明（教示文）

AIのアナウンスは、この様な状況で聞こえたと設定しました。

これは「教示文」と呼ばれるものです。

[STORY]

あなたは新横浜から名古屋方面に向かう新幹線に乗っています。

早起きしたので、座席を倒してブラインドを下げ、目を閉じました。

朝の車内は静かで、心地良い列車の揺れにウトウト。

すると車内アナウンスが流れてきました。

"あれ？AIの声・・それとも声優さん？"

今日のアナウンスはいつもとちょっと違うみたいです。

改めて見ると、かつての平和な光景ですね。

着席するやテーブルを出してPCを開く今の空気感と違います。

さて、このSTORYをモニターとして参加している皆さんに読んでいただき、

各キャラクターの声によるアナウンスを聴いていただきました。

●結果について

一番顕著に「安心感」があって「親しみ」があるのは「春日部つむぎ」でした。

結果一覧です。回答者数：433名。

多くの方にAudioTestにご参加頂きました。テストの製作者として感謝申し上げます。

・参加者の詳細

今回は20代男子の参加比率が高く、10代、70代以上の参加比率が顕著に少なく、男女比は2倍以上となりました。

・回答者全体での結果

単純な観測結果は二極化しました。

・女性と男性の差

全部が女性の声であり、女性と男性の評価に差が出る可能性がありました。実際に評価してみると、

「春歌ナナ」と「九州そら」で結果に違いが見られました。

「春歌ナナ」は、

女性：「やや親しみがある」

男性：「やや近寄りがたい」

「九州そら」は、

男性：「やや親しみがある」

女性：「やや近寄りがたい」

参考までに公式HP（https://voicevox.hiroshiba.jp/）では以下の様に紹介されています。

「春歌ナナ」：はつらつとした力強い声。

「九州そら」：気品のある大人な声。

・年代の差

回答全体を見ると、20代男性参加者が多く意見を左右している傾向があるようです。そこで、年代別の傾向を比較しました。

結果として、ほとんどの声は20代と他の年代で同じ傾向を示していることが分かりました。

ただし、中には特徴的な年代差異を持つ声もありました。

それは「ずんだもん」の声です。

10代の「親しみ」があって「安心感」の率直な評価結果。

20代、30代、50代の「やや」的な評価結果。

40代、60代の「戸惑い」「困った」感を感じる評価結果。

公式HP（https://voicevox.hiroshiba.jp/）で「ずんだもん」は、以下の様に紹介されています。

「ずんだもん」：子供っぽい高めの声。

動画サイトでの露出も多いキャラクターなので、その影響が考えられます。

これは、後に紹介します参加されたモニターのコメントでも確認ができます。

●分析について

Sound Oneにはここまで紹介した「音アンケート」とも呼べる機能と並び、

その結果と1/3オクターブバンドの相関係数を出す機能があります。

結果を見ると「近寄りがたい」と「親しみがある」という

評価語対において、2kHzの音圧に0.7の正の相関が見られます。

これは、2kHzの音圧を上げると「親しみがある」方向に傾き、

逆に下げると「近寄りがたい」方向に

傾く傾向があることを示しています。

・グラフィックイコライザーによる調整の実施

両極を張っている「ずんだもん」と「ナースロボ_タイプT」で特定周波数と聴感印象について簡単に検証してみます。

二人の声の1/3オクターブバンド2kHzのレベル差は約10dB。

Sound Oneの機能である＜グラフィックイコライザー＞で2 kHzのレベルを各々調整。アナウンスを再生し効果を確認します。

果して？期待の効果は得られませんでした。

「ナースロボ_タイプT」の声はやや艶やかな感じとなり、親しみがある感じにはなりませんでした。

また「ずんだもん」の声に変化を感じる事が出来ませんでした。

●考察

モーターや機械装置の音は、グラフィックイコライザーで調整を行うと聴感印象に大きく影響したりします。

しかし今回の合成音声の事例では、「ずんだもん」の声が（近寄りがたく）なったり、

「ナースロボ_タイプT」のアナウンスに（親しみを感じたり）という変化を感じませんでした。

グラフィックイコライザーで声の印象が変わらないのは皆さんを含めて想像の結果とは思います。

・VOICEVOX（ボイスボックス）の設定

使用したテキスト読み上げ用音声合成ソフトウェアVOICEVOXには調整カ所があります。

基本は「ノーマル」としていますが、話す速度はキャラクターによって若干異なるため、微調整を行いました。

また、不自然なイントネーションや語尾の違和感を消すために最低限の調整を実施しています。

イントネーションには数字があり、各キャラクターのイントネーションは以下のようになっています。

「春日部つむぎ」と「ナースロボ_タイプT」のイントネーションの比較です。この2人、イントネーションの数値を比較すると明らかな差異があります。

公式HP（https://voicevox.hiroshiba.jp/）では以下の様に紹介されています。

「春日部つむぎ」：元気な明るい声。

「ナースロボ_タイプT」：冷静で慎み深い声

・イントネーションの標準偏差

7人のイントネーションを眺めていても（何かが違う）しか判りません。

そこでイントネーションの数字の標準偏差（σ）を求めてみました。

結果、「九州そら」と「ナースロボ_タイプT」はほぼ同じ値。

「すんだもん」と「ナースロボ＿タイプT」の結果をみると、

イントネーション設定と聴感に何らかの相関を感じますが、

「九州そら」と「ナースロボ＿タイプT」を見ると、

そんなに簡単ではない感じです。

「春日部つむぎ」の1/3オクターブバンド分析値（平均）

「ナースロボ＿タイプＴ」の1/3オクターブバンド分析値（平均）

「春日部つむぎ」の声は帯域（声域）が広い様子が見えます。

帯域によっては10dBを超える差異も観測できますが、今ある分析機能で２つの声の特徴を出すのは難しいと考えます。

・頂いた「コメント」の分析

AudioTestを受けて頂いた434名の方から133名もの方からコメントを頂けました。

コメントを拝見すると様々な気づきがありました。

この場を借りて感謝を申し上げます。

＜話す速さと感じ方＞

アナウンスする速さと感じ方についてのコメントを多数拝見しました。

話すスピートが落ちると安心感がもらいます。

話されるスピードによっては、捉え方も変わるのではないかと感じました。

話し方の速度によって、受け取る印象がだいぶ違うと思いました。

落ち着いた口調の方が評価が高くなります。

話す速さ（ピッチ）が遅いものもあっても良かったように感じた。

スピード感がゆっくりだと少し安心です。

各声の相対的な速さの調整だけやったので、速さによる聴感印象について注意を払いませんでした。試してみたくなります。

＜声の高さ・声のトーン＞

声のトーンでの感じ方。意見が分かれています。

低めの音声の方が安心感が得られるような気がしました。

声の高さによって、受け取る印象がだいぶ違うと思いました。

声の高さでだいぶ印象が違いました。

声の高さが高いほど，親やすさを感じた気がします。

声のトーンによって印象やイメージが大きく変わるのだなと感じました。

甲高い声は車内アナウンスには向かないと思った。

音程の高低とハキハキとした喋り方かそうでないかでかなり聴き手に与える印象は変わってくるように思う。

音や味に敏感な者です。高さやタンギングのような音の出し方で少し耳が痛いです。

聴き返してみると、どの声も高いような気もします。

Sound Oneには【Drive】の分析機能に「時間・周波数カラーマップ」があります。

このマップ上側（16 kHz側）方向で赤色に寄っているほど高周波成分の高い音が含まれている事を示します。

試しに、私には落ち着いた感じに聞こえる「九州そら」と、やや甲高く聞こえた「猫使いビィ」を分析してみます。

「猫使ビィ」の方が中・高周波帯で赤色が目立ち、甲高い声の特徴が出ています。

また「九州そら」に比べて低周波の成分も顕著に含んでいます。

「九州そら」も言葉によっては高い成分が観測できます。声というのは単純ではないですね。

＜明るい声＞

「明るい声」というコメントは目につきました。

どの声を聴いて「明るい」と感じられたのかは不明ですが、何れもポジティブなコメントです。

明るい声の方が親しみやすいかと感じました。

明るい声でアナウンスされると安心感がある印象を感じた。

可愛くて明るい声が安心感があって聞きやすいです。

<幼い声・子供の声>

肯定的コメントはゼロです。

幼い声は子供のアナウンスを聞いているようである意味不安を覚えました。

想定していたより、幼い感じの声が多くて、少しびっくりしました。

全体的に幼い声という印象。

女子より、子供っぽい声です。なぜ男性の声がないですか？

子供の声のような音もあり、その部分で不安感を感じる。

子供の声にどうしても聴こえてしまうのでどうしても安心感がなくなってしまう。

子供の声にしか聞こえません。どれも心地よい感じはしないです。

子供っぽい声だと親しみやすさも感じるが不安も感じました。

子供っぽい声が多く、音声案内としては不安を感じました

子供っぽい声（高すぎる声など）だと心地よい声に聞こえませんでした。

子どもっぽい声だとリラックスできない。

極度の幼児声だと、何者だ？と怖さを覚えて、親しみを失ってしまいました(笑)

どれも子供の声のようで、安心できるものがありませんでした。

あまりにも年齢が低い女の子？の声は、ただただ不安でしかないと思いました。

「新幹線の車掌のアナウンス」という状況設定を正しく認識してAudioTestを受けて頂いた事を感謝します。

Webを検索すると子供っぽい声の特徴として、声の高さ、声域が狭い、響きや深みが無い、

他にも語尾や話すスピードなど様々な要素がある様子です。

これは（可愛い）と称される声とも考えられますが、新幹線の車内アナウンスをした時、

多くのモニターが、不安、驚き、意外さ、心地悪さ、怖さなど、マイナスの感情を抱きました。

＜可愛い・アニメ＞

<幼い声・子供の声>と関連付けられなくも無いですが、前者の全否定コメントとちょっとだけ空気感が違います。

新幹線内を考えた場合、アニメ風の声での案内はあまりしっくりこない感じがしました。

アニメ声に近いと、親近感は湧いても落ち着かないと感じました。

可愛い声が多かったです。

可愛い音やしっかりした音があった。

もう少し、アニメ声ではない方向の声が欲しかったです。

シチュエーションによって、アニメ声が適さない場合があると思いました。

いわゆる　アニメ声　幼い声、と言った感じが多く馴染めなかった。

アニメを見慣れているかで意見が分かれそうと思った。

アニメのキャラみたいですね。

アニメっぽい要素を持った声の方が親しみが感じられた。

アニメっぽいものが多く面白かったです。

＜「ずんだもん」＞

今回の７声の中で唯一、キャラクター名があがりました。

「ずんだもん」良いよね

「ずんだもん」に似た音声があり親しみを感じてしまいました。

「ずんだもん」の声が聞こえました。

私も「ずんだもん」を動画サイトで楽しんでいます。

VOICEVOXを知るまで声優さんが動画制作に参加していると思っていました（本当です、間接的にはその通りなのですが）。

皆さん好意的なコメントでした。

＜テキストマイニング＞によるコメントの分析

コメント分析は、うれしい半面でちょっとだけ精神的な負担も感じ、

またバイアスも生じる可能性があります。

今回、テキストマイニングを使って133名のコメントを分析しました。

この様な分析アプローチもSound Oneの特長と言えます。

ユーザーローカルAIテキストマイニングによる分析（ https://textmining.userlocal.jp/ ）

コメントの印象とはちょっと違うかも知れません。

コメントの感情分析は興味深いです。

形容詞の出現回数のみをカウントです。

「可愛い」より「幼い」が多い印象です。

・データの表示方法について

今回Sound Oneの機能をそのまま使って結果の観測を行いました。

最大値で結果を素早く把握できるメリットはありますが、

他の意見や傾向が埋もれるデメリットもあり、その例を紹介いたします。

左はSound One、右はO-Chart（グラフ作成ツール（株）小野測器））で

コンター図を作成しSound Oneのマトリックスに合成。

一見して「親しみが」あり「安心感」があると観測してしまう「九州そら」ですが、

コンター図では「近寄りがたく」「不安を覚える」と感じたモニターも広く分布している様子が可視化されます。

また、「近寄りがたく」「不安を覚える」と観測できる「春歌ナナ」ですが、

コンター図では「親しみがあり」「不安を覚える」と感じたモニターに二分化している様子が見えました。

また「安心感」方向にも分布が広がっています。

最大値表示は便利ですが、結果を単純化するあまり、傾向を読み誤る可能性を示しており、表示方法の課題と考えられます。

●あとがき

音声合成の試みは1700年代には確認でき、

動画サイトで「Voder」を検索すれば1930年代の懐かしさと愛嬌を感じる合成音声を聴くことができます。

今回使用したVOICEVOXは素晴らしく、打ち込んだテキストを自然に発音します。

多くの可愛いキャラクター（声）を選ぶ事が可能で、その数は増加中です。

音声合成技術による「声」は、新幹線の車内や駅構内でインフォメーションを行い、

公共放送では朝のニュースを読んでいます。

先般、通勤で電車が停車する際「急停車します、ご注意ください」とアナウンスが流れましたが、

そのアナウンスは非常ブレーキ時に自動で流れるとの事。

機械音と違い、音声には感情や意図が含まれます。

主観的な要素が強く、特に個人の感じ方や好みによっても評価が異なり、

評価に於ける客観性の確保などと考えるとSound Oneの道程は長いのかも知れません。

今回は面白がって、「とんでもないところ」に突っ込んで行った感は多分にあるのですが、

Sound Oneの特長を示す事ができたと考えます。

VOICEVOX関係者の皆さま、AudioTestに参加されたモニターの皆さま、

テキストマイニングにご協力頂いた株式会社ユーザーローカル、

キャラクターの使用にご快諾いただきた作家の皆さまに感謝申し上げます。

以上