方言语音合成展示

一、F5TTS_v1_Base:跨方言合成效果

参考录音:这是参考录音,用于合成语音

合成文本:大家好,我是凤鹏超,来自上海交通大学电子信息与电气工程学院二零二二级人工智能班。我迷恋乒乓飞舞的韵律、楚河汉界的玄机,更爱执笔绘就丹青、行至山河万里。虽然我不会说方言,但是我正在说方言。你们觉得我说的像不像呢?

1. 上海方言 (60k steps)

1
2+
3+

2. 广东方言 (60k steps)

1
2+
3+

3. 武汉方言 (60k steps)

1
2+
3+

4. 天津方言 (60k steps)

1
2+
3+

5. 郑州方言 (60k steps)

1
2+
3+

6. 长沙方言 (60k steps)

1
2+
3+

KeSpeech 数据集

7. 北京方言 (80k steps)

1
2+
3+

8. 冀鲁方言 (80k steps)

1
2+
3+

9. 江淮方言 (80k steps)

1
2+
3+

10. 焦辽方言 (80k steps)

1
2+
3+

11. 兰银方言 (80k steps)

1
2+
3+

12. 东北方言 (80k steps)

1
2+
3+

13. 西南方言 (80k steps)

1
2+
3+

二、F5TTS_v1_Small:实验与效果

1. 主观测评维度

2. 不同 NFE 设置下合成效果

表 1:不同 NFE 下语音合成性能与效率对比
NFETime (s)QualityDialectSense
165.4634.5
327.5344.5
488.794.54.5
6412.0344.5
NFE = 16
NFE = 32
NFE = 48
NFE = 64

3. 消融实验

表 2:不同微调步数与增强设置对比结果(NFE = 32)
FT α (Enhance) Quality DialectSense
0141
60k141.5
60k2+44
60k3+44.5
80k143.5
80k2+33.5
80k3+2.54
100k132
100k2+3.53.5
100k3+12.5
1. base model
2.
3.
4.
5.
6.
7.
8.
9.
10.

4. 其他方言展示

上海方言展示:

(FT = 60 k steps, NFE = 32)

1
2+
3+

(FT = 80 k steps, NFE = 32)

1
2+
3+