pbs
发布于 2025-06-06 / 110 阅读
0
0

声音复刻—训练素材录制指引

⚡【快速了解】声音复刻极速版

只需上传一段10-20秒声音文件,三分钟,即完成对用户音色、说话风格、口音和声学环境音的复刻。

此文档介绍声音素材录制的相关注意事项。目的是为声音复刻提供较好的音频素材。

⚡一:能力优势

  • 秒级训练声音: 仅需在开放环境下录制最短10秒音频即可快速复刻,录制成本极低。

  • 分钟级训练时长: 音频上传成功后,三分钟完成模型复刻。

  • 高度还原: 高度还原真人音色特点、说话风格、口音和声学环境。

  • 跨语种迁移:录制一个语种的声音,可支持中文、英文、日语、西班牙语(墨西哥口音)、葡萄牙语(巴西口音)、印尼语多个语种的合成,让声音轻松说外语。

⚡二:声音录制

1、 场地选择与注意事项

选择安静没有噪音(如空调出风口噪音、室外人声、汽车、施工噪音、鸟叫、鸣蝉)、没有回声、软装较多的的环境空间(如卧室,车里)。

建议麦克风(手机麦克风一般在手机底部)与嘴的距离在10cm-20cm内,音量保持适中,避免喷麦。

尽量避免在光滑墙面、地板房间录制,如大面积玻璃墙面或大理石地板房间,以避免引入回声混响;

声音流畅、吐字清晰。尽量口语化,语气、语调符合 视频应用场景。

除了讲话之外,不做其余动作,避免多余声音(如衣服摩擦等声音、吞咽声)。

2、 录制设备

▸ 选择一:iPhone手机录制,为达到较好的录制音质,可按以下图片步骤设置手机

▸ 选择二:专业麦克风录制

3、 录制内容

录制文本:可自行准备一段约1分钟文稿。稿件内容不限,也可以是贴合工作的口播稿。

文本要求:中文汉字文本;单句子最长不超过50字,平均句子控制在20字左右。

▸录制音频时长:1分钟。

音频格式:录制时推荐无损 WAV 格式(具体格式不限制),不低于24k采样率。

⚡三:声音剪辑与提交训练

剪辑去掉长停顿、喷麦声、卡顿等,选择保留较好的10-20秒声音。

格式:音频格式支持 wav、mp3、aac、m4a、wma、asf。

时长10-20秒

文件大小:不超过20M

采样率:支持16K、24K、48K

码率:建议大于128kbs

文件命名:2-50个字符,只可出现 汉字、字母、数字、下划线、横线

 


评论