金沢工業大学情報工学科OBの鈴木大志さんが学部4年次に取り組んだ研究が情報処理学会論文誌に採録。

2024年02月15日 13:46

MANTANWEB編集部

共同通信PRワイヤー

プレスリリース詳細　https://kyodonewsprwire.jp/release/202402156603

あなたにオススメ

来春朝ドラ「あんぱん」の“二人の妹”　朝ドラヒロインまで手が届くか

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。詳細は上記URLを参照下さい。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。

Any-to-Anyの音声変換をリアルタイムに行う手法の実装と評価で

金沢工業大学情報工学科OBの鈴木大志さんが学部4年次のプロジェクトデザインIII（卒業研究。研究指導教員：情報工学科中沢実教授、鷹合大輔准教授）で取り組んだリアルタイム音質変換手法の研究内容の一部が情報処理学会論文誌(Journal)に採録され、2024年2月号に掲載されました。当論文は、厳しい査読結果からアクセプト(掲載許可)されたもので、金沢工業大学における学部4年次の学生の研究水準の高さが評価されたといえます。

【鈴木大志さんについて】

鈴木大志さんは金沢工業大学の併設校である国際高等専門学校グローバル情報学科4年生、5年生の2年間、金沢工業大学AIラボにて大学生とともに深層学習をはじめとする機械学習や音声処理に関するAIスタートアッププロジェクトに参加しました。

2020年に国際高専を卒業後、金沢工業大学情報工学科３年次に編入した後も、AIラボで一貫して音質変換を如何に高精度且つリアルタイムに実現するかについて研究に取り組んできました。

そして学部4年次のプロジェクトデザインIIIでは、深層学習を専門とする中沢実教授と、信号処理を専門とする鷹合大輔准教授の指導のもとで、今回論文誌に掲載された「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」に取り組んできました。

【画像：https://kyodonewsprwire.jp/img/202402156603-O2-S1r6xD29】

鈴木大志さんは国際高専在学中から金沢工業大学AIラボの一員として大学生と一緒に研究に取り組んだ

（写真右から2番目）

【鈴木大志さんの研究の概要について】

声質変換は、ある話者の声質を別の話者の声質に変換する技術で、応用先としてはアバターを使ったオンライン会議やボーカロイド、ボイスチャット、電話などでの使用があげられます。

身近な例でいえば、スマートフォンを使った電話も、実は本人そのものの声ではなく、本人に近い合成音声が使われています。

近年、深層学習を用いた声質変換技術の発展により、ある人物の声を、発話内容を変えずに別の人物の声質に高精度で変換することが可能となってきました。

こうした音声変換手法は扱う人数に応じて

(1) One-to-One

(2) Many-to-Many

(3) Any-to-Any

に大きく区分できます。

(1) は、特定の人物Aの声質を特定の人物Bの声質に変換する方式で、学習にはAとBの2人の声質が使われます。

(2)は、学習に用いる人物を複数人でき、手法によってはその双方向を変換できる方式ですが、学習に用いていない声質への変換はできません。

(3)は、学習に目標の声質の音声が含まれているかにかかわらず変換できる方式としてAutoVCがあり、学習用のデータになかった未知の対象を、テキストなどの補助的な情報を用いて予測する”ゼロショット”声質変換法と呼ばれます。

ゼロショット声質変換法では，多くの場合、

(1) 入力話者音声をメルスペクトログラムに変換し、

(2) 入力話者のメルスペクトログラムを出力話者のものに変換。

(3) 出力話者のメルスペクトログラムで音声信号を生成する。

という手順を踏みます。

この声質変換に要する時間が入力音声よりも短ければリアルタイム声質変換が可能ですが、(2) と(3) の両方で深層学習モデルを使うためGPUを使った演算量が増加し，それがリアルタイム声質変換の実現を困難にしていました。

この解決策として鈴木さんが提案したのは、音声の特徴量を「スペクトル包絡」、「基本周波数」、「非周期性指標」の3 つとし、深層学習モデルはスペクトル包絡の変換にのみ適用することで演算量を削減する方法でした。

【画像：https://kyodonewsprwire.jp/img/202402156603-O1-Mj1MIS46】

深層学習モデルをスペクトル包絡の変換にのみ適用することで GPUの演算量を削減し、リアルタイム変換を可能とした

深層学習モデルはAutoVC の構造をベースとして、前処理と後処理部分を変更したものを用いました。実験により、音声信号1 秒あたりの処理に要する時間はGPU 環境では0.2 秒以下となり、リアルタイム声質変換可能であることが示されました。

さらに従来のAutoVC と比べても品質が改善できていることもMOS（Mean Opinion Score）による評価結果から示されました。

※メルスペクトログラム

音響特徴量の一部。音声の周波数をフーリエ変換したスペクトログラムで、人間の音声知覚の特徴を考慮したものを特にメルスペクトログラム（mel spectrogram）と呼ぶ。

※スペクトル包絡

スペクトルの曲線族すべてに接している曲線を包絡線（ほうらくせん）と呼び、包絡線の表す山や谷などを「包絡」という。

※GPU

特定の 3D レンダリング・タスクの高速化などに特化したプロセッサー。グラフィックスとゲームに使われるほか、汎用的な並列プロセッサーとして、生成AIなどにも使用されている。

論文名：「AutoVCを用いたゼロショットリアルタイム声質変換手法の実装と評価」

執筆者：鈴木大志　鷹合大輔　中沢実

情報処理学会論文誌　Vol.65 No.2 529-537（Feb.2024) 　発行年2024-02-15

世界初の完全EV二輪オフロード国際選手権「FIM E-XPLORER WOR… 大阪万博工事現場での取り組み6件ご紹介

共同通信PRワイヤー最新記事

共同通信PRワイヤー　アーカイブ

MAiDiGiTV　動画

2024年11月16日

堀みなみ、抜群のスタイルは母からの「遺伝」　話題…

HASH TAG

#解説 #おむすび #ガンダム #光る君へ #仮面ライダー #プリキュア #私のはじめて #櫻坂46 #橋本環奈 #機動戦士ガンダムSEED #鬼滅の刃 #奇跡の一枚 #葬送のフリーレン #24年秋ドラマ #呪術廻戦

金沢工業大学情報工学科OBの鈴木大志さんが学部4年次に取り組んだ研究が情報処理学会論文誌に採録。

共同通信PRワイヤー最新記事

「西本智実『ノスタルジー』with三浦祐太朗-山口百恵名曲集」ツアー千穐楽・大宮公演いよいよ開催

きかんしゃトーマスのファミリーミュージカルがフルリニューアル 2025年3月京都より全国巡回スタート

「華原朋美 LIVE TOUR 2024-2025 〜♡LOVE IS BEST♡〜 Presented by WOWOWプラス」取材会レポートが到着！

秋元真夏がみのりカフェ長崎駅店の新メニューを命名！冬でも"そうめん"を愉しめる新メニューを実食！

積水ハウス、積水ハウス不動産グループを２０２５年2月１日に再編

MAiDiGiTV　動画

堀みなみ、抜群のスタイルは母からの「遺伝」　話題…

HASH TAG

金沢工業大学情報工学科OBの鈴木大志さんが学部4年次に取り組んだ研究が情報処理学会論文誌に採録。

共同通信PRワイヤー 最新記事

「西本智実『ノスタルジー』with三浦祐太朗-山口百恵名曲集」 ツアー千穐楽・大宮公演いよいよ開催

きかんしゃトーマスのファミリーミュージカルが フルリニューアル 2025年3月京都より全国巡回スタート

「華原朋美 LIVE TOUR 2024-2025 〜♡LOVE IS BEST♡〜 Presented by WOWOWプラス」取材会レポートが到着！

秋元真夏がみのりカフェ長崎駅店の新メニューを命名！ 冬でも&quot;そうめん&quot;を愉しめる新メニューを実食！

積水ハウス、積水ハウス不動産グループを２０２５年2月１日に再編

MAiDiGiTV 動画

堀みなみ、抜群のスタイルは母からの「遺伝」 話題…

HASH TAG

共同通信PRワイヤー最新記事

「西本智実『ノスタルジー』with三浦祐太朗-山口百恵名曲集」ツアー千穐楽・大宮公演いよいよ開催

きかんしゃトーマスのファミリーミュージカルがフルリニューアル 2025年3月京都より全国巡回スタート

秋元真夏がみのりカフェ長崎駅店の新メニューを命名！冬でも"そうめん"を愉しめる新メニューを実食！

MAiDiGiTV　動画

堀みなみ、抜群のスタイルは母からの「遺伝」　話題…