MAX2採点でアーティストの声質との類似性(声質特徴量)を評価対象に盛り込んでいる可能性

MAX2採点でアーティストの声質との類似性(声質特徴量)を評価対象に盛り込んでいる可能性

こんにちは。
私はカラオケで採点するたびに、MAX2の採点基準にアーティストとの声質の類似性を評価対象に盛り込んでいるような気がしているのでお話したいと思います。

というのも、最近MAX2でいろいろと声を変えて同じ曲を歌って採点するケースが多々あったのですが、どのケースでも自分の中でアーティストの声質に近づけた時の方が、点の伸びがよかった気がしたのです。

では、声質のアーティストとの類似性について本当にJOYSOUNDは評価している可能性があるのでしょうか?

主張の根拠となるJOYSOUND関連の特許

このお話の根拠となる特許はブラザー工業さんの「特許6075314」です。
気になるかたは、J-PlatPatで特許検索してみてください。

「特許6075314」をかいつまんで説明すると


「特許6075314」図4より引用

このような評価基準データを元に評価するという特許なのですが、この画面の「声質特徴量(MFCC)」(MFCC:メル周波数ケプストラム係数)という項目などに関して、MAX2でフィールドテストもしくは正式に採点仕様として採用している気がしてならないのです。(MAXに関しては最近歌っていないので状況がわかりません。)

ケプストラムとは?

ケプストラムは1963年、Bogert らの論文で定義された。ケプストラムの定義は以下の通り。
口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピングを施したもの)をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。
数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。
アルゴリズム的定義: 信号 → FT → abs() → log → 位相アンラッピング → FT → ケプストラム
ーケプストラムーWikipedia

こちらのサイトも参考になります。

ケプストラム分析を行うことで、声質の特徴を得ることができます。
この分析で得られた声質特徴量を上記の表のようなデータとして歌唱評価に利用して行こうというJOYSOUNDの姿勢が特許から伺われます。

このような採点仕様だとアーティストの声質に似てない人がその曲を歌う場合には圧倒的に不利になってしまいますが、それに関してはJOYSOUND陣営はすでに考慮していて、「特許6365483」において、歌唱者に声質が似ているアーティストがその曲を歌った場合の歌唱特徴データと歌唱者の歌唱特徴データを比較するという方法を考案しています。

「特許6075314」のMAX2への実装の可能性について

本題に戻りますが、声質特徴量の現採点への採用の可能性ですが、

「特許6075314」の登録年月日が「【登録日】平成29年1月20日(2017.1.20)」となっていて、2017年7月のMAX2発売開始前に登録されていること
MAX2発売によって大幅に変更された採点仕様によって、私の通り一遍な歌唱では高得点が取れる曲が減ってきた
最初に書いた、自分の中でアーティストの声質に近づけた時の方が、点の伸びがよかった気がした

この3点からMAX2にはアーティストとの声質類似性を評価基準に持っていると個人的に思っていました。

今回、根拠となる特許情報を見つけることができたので、「MAX2にはアーティストとの声質類似性を評価基準に持っている可能性があること」をみなさんに情報共有したいと思います。

ご意見などお待ちしています。

読んでいただいてありがとうございました。

I accept the donation of Cryptocurrency

BTC:3G3ZgRQ2SCLUSGjBVXctn4UyvYXWZx4iTx
ETH:0xc13d33e6450f6243eb6c7aefda1d4a9c447a9d9e

採点カテゴリの最新記事