pbs
发布于 2025-06-06 / 715 阅读
188
0

视频数智人克隆所需素材准备指引

⚡【快速了解】轻松克隆数智人

您只需上传一段模特口播视频,无需训练,即刻克隆一个1:1还原的视频数智人。

通过文本或音频驱动数智人,即可自动生成口型、动作、姿态、音色、完美还原的口播视频。

本文章内容及目标:视频数智人克隆所需视频素材准备相关注意事项,为您的数智人克隆提供较好的样本素材。

⚡一:核心克隆能力

  • 实景克隆: 1:1 还原拍摄时的真实背景环境。

  • 走动克隆: 精确模仿还原录制人物时候的动作序列

  • 口型克隆: 高度保留录制本人的口型、表情特征(唇齿相似度接近90%),表情动作的自然度取决于模特表现力。

⚡二、视频素材拍摄要求 (重要)

1. 拍摄与环境

  • 拍摄设备:

    • 推荐使用专业摄影机或相机。

    • 手机设备:首选苹果手机,拍摄时具体参数如下:后置摄像头拍摄、视频模式(非电影效果),大小1x,分辨率4K,帧率30fps;关闭 PAL 格式、HDR 模式、自动 FPS,关闭入口:设置 > 相机 > 录制视频。

  • 画面稳定:

    • 固定姿势(坐/站): 建议使用三脚架等设备,确保画面稳定

    • 走动拍摄: 建议使用稳定器拍摄。

  • 声音录制:

  • 拍摄环境:

    • 光线: 面部光线需稳定、明亮、均匀。避免强光直射或面部阴影。

    • 背景: 干净整洁。选择/布置适合目标应用场景的背景。实景克隆会完全还原背景。

2. 拍摄角度

  • 首选正面平视镜头。(摄影机和人眼同一高度)

  • 如需侧身:

    • 水平转动角度 ≤ 45度

    • 俯仰角度 ≤ 15度

  • 视频画面:模特上下左右预留一定空间,避免太过拥挤。

3. 模特表现 (关键)

  • 时长: 拍摄约 1分钟 的连续素材。

  • 口型与表情:

    • 自然、连贯、流畅地口播文稿。

    • 即使读错,也请务必保持口型动作的连续性不能卡顿或停顿。

    • 避免眼神飘动(例:使用提词器读稿时,眼神左右看稿),保持眼神注视镜头。

  • 动作与姿态:

    • 避免手势动作类型单调。

    • 避免文稿内容重复。

    • 避免人脸被遮挡(如手势动作高于肩部、物品遮挡等)。

    • 避免身体大幅度的前后或左右晃动。

    • 避免做出带有特定语义或指向性的手势(如OK手势、伸手指数1/2/3)。

    • 请确保手部动作始终在画面内,不出画

⚡三、视频素材剪辑与上传要求

1. 剪辑

  • 视频只可进行掐头去尾式编辑,提供的素材需是连续无间断的拍摄片段。

  • 不要在视频中间进行任何剪辑(会导致跳帧,污染训练数据)。

2. 视频参数

  • 格式: .MP4

  • 帧速率: 25帧/秒30帧/秒

  • 分辨率 (推荐):

    • 竖屏:1080 x 1920

    • 横屏:1920 x 1080

    • 重要限制: 上传视频分辨率(宽 x 高)的乘积 ≤ 2,073,600 像素 (例如:1920x1080=2,073,600)。

  • 时长: 10秒120秒 (1-2分钟)

  • 文件大小: ≤ 500 MB

遵循以上指南准备素材,将极大提升您的视频数智人克隆效果!

❓【常见问题】

Q1: 手机拍摄是否真的能达到要求?

👉 可以,为了克隆数字人画质更好,请设置手机最高画质拍摄

Q2: 光线不足如何补救?

👉 低成本方案:靠窗+补光灯/反光板(或大张白纸代替)

Q3: 读错文稿需要重拍吗?

👉 不需要,保持口型动作流畅不卡顿即可

Q4: 为何侧身拍摄旋转角度不能过大?

👉 影响口型克隆效果

Q5: 克隆的数智人为何表情僵硬,动作单调?

👉 数智人所表现表情或动作,取决于拍摄时模特的表现力。建议拍摄时表情轻松自然,手势动作类型多种组合。


评论