⚡【快速了解】轻松克隆数智人
您只需上传一段模特口播视频,无需训练,即刻克隆一个1:1还原的视频数智人。
通过文本或音频驱动数智人,即可自动生成口型、动作、姿态、音色、完美还原的口播视频。
本文章内容及目标:视频数智人克隆所需视频素材准备相关注意事项,为您的数智人克隆提供较好的样本素材。
⚡一:核心克隆能力
实景克隆: 1:1 还原拍摄时的真实背景环境。
走动克隆: 精确模仿还原录制人物时候的动作序列
口型克隆: 高度保留录制本人的口型、表情特征(唇齿相似度接近90%),表情动作的自然度取决于模特表现力。
⚡二、视频素材拍摄要求 (重要)
1. 拍摄与环境
拍摄设备:
推荐使用专业摄影机或相机。
手机设备:首选苹果手机,拍摄时具体参数如下:后置摄像头拍摄、视频模式(非电影效果),大小1x,分辨率4K,帧率30fps;关闭 PAL 格式、HDR 模式、自动 FPS,关闭入口:设置 > 相机 > 录制视频。

画面稳定:
固定姿势(坐/站): 建议使用三脚架等设备,确保画面稳定。
走动拍摄: 建议使用稳定器拍摄。
声音录制:
此步骤只采集录制画面,视频对声音无要求。(如需和视频同步采集声纹训练素材,请参考:声音复刻极速版—训练素材录制指引)
拍摄环境:
光线: 面部光线需稳定、明亮、均匀。避免强光直射或面部阴影。
背景: 干净整洁。选择/布置适合目标应用场景的背景。实景克隆会完全还原背景。
2. 拍摄角度
首选正面平视镜头。(摄影机和人眼同一高度)
如需侧身:
水平转动角度 ≤ 45度。
俯仰角度 ≤ 15度。
视频画面:模特上下左右预留一定空间,避免太过拥挤。

3. 模特表现 (关键)
时长: 拍摄约 1分钟 的连续素材。
口型与表情:
自然、连贯、流畅地口播文稿。
即使读错,也请务必保持口型动作的连续性,不能卡顿或停顿。
避免眼神飘动(例:使用提词器读稿时,眼神左右看稿),保持眼神注视镜头。
动作与姿态:
避免手势动作类型单调。
避免文稿内容重复。
避免人脸被遮挡(如手势动作高于肩部、物品遮挡等)。
避免身体大幅度的前后或左右晃动。
避免做出带有特定语义或指向性的手势(如OK手势、伸手指数1/2/3)。
请确保手部动作始终在画面内,不出画。
⚡三、视频素材剪辑与上传要求
1. 剪辑
视频只可进行掐头去尾式编辑,提供的素材需是连续无间断的拍摄片段。
不要在视频中间进行任何剪辑(会导致跳帧,污染训练数据)。
2. 视频参数
格式:
.MP4帧速率:
25帧/秒或30帧/秒分辨率 (推荐):
竖屏:
1080 x 1920横屏:
1920 x 1080重要限制: 上传视频分辨率(宽 x 高)的乘积 ≤ 2,073,600 像素 (例如:1920x1080=2,073,600)。
时长:
10秒至120秒(1-2分钟)文件大小:
≤ 500 MB
遵循以上指南准备素材,将极大提升您的视频数智人克隆效果!
❓【常见问题】
Q1: 手机拍摄是否真的能达到要求?
👉 可以,为了克隆数字人画质更好,请设置手机最高画质拍摄
Q2: 光线不足如何补救?
👉 低成本方案:靠窗+补光灯/反光板(或大张白纸代替)
Q3: 读错文稿需要重拍吗?
👉 不需要,保持口型动作流畅不卡顿即可
Q4: 为何侧身拍摄旋转角度不能过大?
👉 影响口型克隆效果
Q5: 克隆的数智人为何表情僵硬,动作单调?
👉 数智人所表现表情或动作,取决于拍摄时模特的表现力。建议拍摄时表情轻松自然,手势动作类型多种组合。