pbs
发布于 2025-06-06 / 847 阅读
188
0

视频数智人克隆所需素材准备指引

⚡【快速了解】轻松克隆视频数智人

您只需上传一段模特口播视频,无需训练,即刻克隆一个1:1还原的视频数智人。

通过文本或音频驱动数智人,即可自动生成口型、动作、姿态、音色、完美还原的口播视频。

本文章内容及目标:视频数智人克隆所需视频素材准备相关注意事项,为您的数智人克隆提供较好的样本素材。

根据您的情况选择:实景背景视频拍摄(后期不可更换视频背景)或绿幕背景视频拍摄(后期可更换视频背景)

⚡一:核心克隆能力

  • 实景克隆: 1:1 还原拍摄时的真实背景环境。

  • 动作克隆: 精确模仿还原录制人物时候的动作序列

  • 口型克隆: 高度保留录制本人的口型、表情特征(唇齿相似度接近90%),表情动作的自然度取决于模特表现力。

⚡二、实景背景视频拍摄 (后期不可更换视频背景,对设备环境拍摄要求相对较低)

1. 拍摄与环境

  • 拍摄设备:

    • 推荐使用专业摄影机或相机。

    • 手机设备:首选苹果手机,拍摄时具体参数如下:后置摄像头拍摄、视频模式(非电影效果),大小1x,分辨率4K,帧率30fps;关闭 PAL 格式、HDR 模式、自动 FPS,关闭入口:设置 > 相机 > 录制视频。

  • 画面稳定:

    • 固定姿势(坐/站): 建议使用三脚架等设备,确保画面稳定

    • 走动拍摄: 建议使用稳定器拍摄。

  • 拍摄环境:

    • 光线: 面部光线需稳定、明亮、均匀。避免强光直射或面部阴影。

    • 背景: 干净整洁。选择/布置适合目标应用场景的背景。实景克隆会完全还原背景。

2. 拍摄角度

  • 首选正面平视镜头。(摄影机和人眼同一高度)

  • 如需侧身:

    • 水平转动角度 ≤ 45度

    • 俯仰角度 ≤ 15度

  • 视频画面:模特上下左右预留一定空间,避免太过拥挤。

3. 模特表现

  • 表现: 表情放松,自然讲稿,有节奏地自然做手部动作,拍摄约 1分钟 的连续素材。

  • 避免 眼神飘动,保持眼神注视镜头。

  • 避免 做出带有特定语义或指向性的手势(如OK手势、伸手指数1/2/3)。

请确保手部动作始终在画面内,不出画

⚡三、绿幕背景视频拍摄 ( 后期可更换视频背景,对设备环境拍摄要求相对较高)

1、 场地选择

  • 场地光线:光线稳定充分的光线环境,光线环境不发生显著变化,取景画面中脸部无明显阴影。

  • 场地空间:足够的场地空间,需布置灯光、绿幕、摄影机等设备。

2、服装与发型

  • 服装饰品

服装纹理简单、颜色与绿幕有差异的服饰。

不要选择绿色系(如黄色、绿色、黄绿色)/反光材质/装饰亮片/格子条纹/镂空花纹/网纱透视材质的服装。

不要佩戴绿色系或闪亮饰品

可选择隐形眼镜。如必须佩戴框架戴眼镜,注意避免镜片及镜框反光(影响后期抠像效果,可通过调整灯光位置角度处理反光)。

  • 发型

发型规整, 避免明显发缝、碎发(碎发会影响后期抠像效果。可通过发胶等使头发服帖)

3、拍摄设备与布光

  • 灯光布置与模特站位:

人物距离绿幕1.5m以上,注意人物皮肤和衣服及桌子不要有绿色反光。(如果拍全身,脚下需要有绿幕)。

人物居画面正中, 人眼正视镜头、不要仰视/俯视,人眼与镜头尽量保持相同高度。

拍摄画面中, 人物需要在全程在绿幕内,手势不要出画面。

灯光布置参考下图:

  • 绿幕视频拍摄设备、视频规格:

使用单反相机或专业摄影机。

拍摄过程使用三脚架,保证画面稳定不抖动、不晃动。光线不发生显著变化。

绿幕平整无褶皱,铺满画面。

拍摄视频比例横屏16:9或竖屏9:16,分辨率1080P/2K/4k,帧速率:30帧/50帧/60帧,焦段:50mm 。

4. 模特表现

  • 表现: 表情放松,自然讲稿,有节奏地自然做手部动作,拍摄约 1分钟 的连续素材。

  • 避免 眼神飘动,保持眼神注视镜头。

  • 避免 做出带有特定语义或指向性的手势(如OK手势、伸手指数1/2/3)。

请确保手部动作始终在画面内,不出画

⚡四、声音录制

⚡五、视频素材剪辑与上传要求

1. 剪辑

  • 视频只可进行掐头去尾式编辑,提供的素材需是连续无间断的拍摄片段。

  • 不要在视频中间进行任何剪辑(会导致跳帧,污染训练数据)。

2. 视频参数

  • 格式: .MP4

  • 帧速率: 25帧/秒30帧/秒

  • 分辨率 (推荐):

    • 竖屏:1080 x 1920

    • 横屏:1920 x 1080

    • 重要限制: 上传视频分辨率(宽 x 高)的乘积 ≤ 2,073,600 像素 (例如:1920x1080=2,073,600)。

  • 时长: 10秒120秒 (1-2分钟)

  • 文件大小: ≤ 500 MB

遵循以上指南准备素材,将极大提升您的视频数智人克隆效果!

❓【常见问题】

Q1: 手机拍摄是否真的能达到要求?

👉 可以,为了克隆数字人画质更好,请设置手机最高画质拍摄

Q2: 光线不足如何补救?

👉 低成本方案:靠窗+补光灯/反光板(或大张白纸代替)

Q3: 读错文稿需要重拍吗?

👉 不需要,保持口型动作流畅不卡顿即可

Q4: 为何侧身拍摄旋转角度不能过大?

👉 影响口型克隆效果

Q5: 克隆的数智人为何表情僵硬,动作单调?

👉 数智人所表现表情或动作,取决于拍摄时模特的表现力。建议拍摄时表情轻松自然,手势动作类型多种组合。


评论