近い声質の識別子同士が繋がっています。拡大縮小や頂点の移動ができます。辺が短いほど・太いほど似ているはずです(あくまで目安です)。辺にカーソルをのせたときの数字は2つのコサイン類似度です。
技術的な詳細
データからランダムに10音声を選び、それぞれに対して
この埋め込みを使って得られた256次元特徴量の平均に対して、それらのコサイン距離を使ってminimum
spanning treeを作ったものです。
Similar speakers are connected. You can zoom in/out and move the nodes. The shorter/thicker the edge, the
more
similar the speakers should be (this is just a rough guide). The number on the edge is the cosine similarity
between the two embeddings.
Technical details
This is a minimum spanning tree of the cosine distances between the average of 256-dimensional embeddings
obtained from
this embedding for 10 random
samples.
Number of files:
Total duration (min):
Mean F0 (Hz):