VITS接口文档

/generate 用于合成角色语音

/help 用于显示此页面

/getinfo 用于查询支持信息

加"*"的为必传参数！

type string 要查询的参数，可选models(查模型列表),juese(查该模型支持哪些角色),lang(查询该角色支持的语言),gq(查询该角色该语言支持的情感),text_split_method(查询切分方式)*

models string 使用的模型（type为juese,lang,gq时必传）

juese string 角色名称（type为lang,gq时必传）

lang string 语言（type为gq时必传）

加"*"的为必传参数！

text 要合成的文本内容*

juese 使用的音色，获取支持列表请调用查询参数/getinfo，输入模型名称后查看模型支持的角色列表。示例/vits/getinfo?type=juese&models=崩坏3*

models 使用的模型，可以通过请求/getinfo?type=models获得支持模型列表

gq 情感参数，指定语音合成时所表达的情感。不同的情感会影响语音的语调、语速、音量等方面

lang 合成文本使用的语言

top_k 在生成语音时，从候选词汇中选择概率最高的前top_k个词汇进行采样。较高的top_k值会增加生成文本的多样性，但可能会降低生成文本的质量

top_p 核采样参数，也称为累积概率采样。它根据词汇的概率分布，选择累积概率达到top_p的词汇进行采样。较高的top_p值会增加生成文本的多样性，但可能会引入一些不太相关的词汇

temperature 温度参数，用于控制生成文本的随机性。较高的温度值会增加生成文本的多样性，但可能会降低生成文本的可读性和准确性

text_split_method 文本分割方法，指定如何将长文本分割成适合语音合成的短文本片段。不同的分割方法可能会影响语音合成的流畅性和自然度

batch_size 批量处理大小，表示一次处理多少个文本片段进行语音合成。较大的批量处理大小可以提高处理效率，但可能会增加内存消耗

batch_threshold 批量处理阈值，与batch_size配合使用。当文本片段的数量达到或超过batch_size * batch_threshold时，开始进行批量处理

split_bucket 是否启用桶分割，桶分割是一种将相似长度的文本片段放在同一个桶中进行处理的技术，可以提高处理效率

speed_facter 语速，用于调整合成语音的语速。大于1的值会加快语速，小于1的值会减慢语速

fragment_interval 片段间隔，指定相邻文本片段合成语音之间的时间间隔

parallel_infer 是否启用并行推理，并行推理可以同时处理多个文本片段，提高语音合成的效率

media_type 输出文件编码/后缀

repetition_penalty 重复惩罚参数，用于防止生成文本中出现过多的重复词汇。较高的重复惩罚值会降低重复词汇的出现概率

seed 随机种子，用于控制语音合成的随机性。相同的随机种子会产生相同的语音合成结果

各参数默认值以及类型

models string 根据juese参数自动选择

gq string 随机

lang string 中文

top_k number 10

top_p number 1

temperature number 1

text_split_method string 按标点符号切

batch_size number 1

batch_threshold number 0.75

split_bucket boolean true

speed_facter number 1

fragment_interval number 0.3

parallel_infer boolean true

media_type string wav

repetition_penalty number 1.35

seed number -1

示例：点击尝试 /vits/generate?juese=黑希儿&text=你好&models=崩坏3

语音合成-接口文档