抖音如何拍同款视频道具(抖音火爆的虎年赛博朋克风新春AR道具,原来是这样打造的)

机器心脏释放

机器之心编辑部

临近虎年春节,Tik Tok推出了一系列ar相机特效。在Tik Tok的镜头下,日常生活的风景呈现出各种奇妙的效果。其中《AR中国年》通过将镜头扫描的场景变成酷炫的赛博朋克新年风最受欢迎,在广大网友的创意下玩出了各种花样。



“AR中国年”的效果来自于Tik Tok产品团队对赛博朋克唐人街未来场景的设想。但要达到这种效果,需要整合大量的AI算法、图形渲染、特效设计等R&D资源。为此,Tik Tok的技术团队专门开发了一套结合深度学习、SLAM和图形渲染技术的AR特效链接。总体链接如下图所示。



抖音如何拍同款视频

“AR中国年”特效链接

首先,系统基于深度学习模型,通过分析捕获的视频数据,获得深度图、法线图和场景分割掩膜等实时语义和几何信息。同时通过SLAM技术获取/[k0/]相机姿态等之间的信息,结合语义、几何和空信息对不同种类的道具进行放置和跟踪。通过SLAM,还可以进行算法结果的多帧匹配,从而有助于提高语义几何分析的准确性和连续性,保证后续道具挂载的稳定性。在接下来的章节中,本文将对一些关键算法进行分析。

正确安装检测

中国AR年的一大亮点是可以在场景中自然贴合道具材质。在AR场景中,为了让材质的出现位置更适合场景,需要在末端设计一套自动道具挂载算法。为了使装裱结果更加自然,算法还需要输出几个符合透视的不规则四边形。

在算法设计之初,技术团队考虑了基于3D表面检测、2D形状检测和单帧VP检测的方案,开发了基于线段和角点检测的VP检测系统。但是,由于该方案涉及的算法模块和策略较为复杂,要将其移植到移动终端并达到实时性在技术上有一定难度。于是,技术团队开始尝试使用更轻的“目标检测+回归”方案,试图“提炼”出道具挂载的实时检测模型。

在《AR中国年》特效中,为了营造过年的氛围,需要同时挂载十几种不同的素材,而素材出现的地点并不总是在平面上。例如,“灯笼”需要安装在屋檐或天花板上。这就需要算法同时考虑召回率、视角和场景分类。为此,技术团队设计了两阶段算法,由检测模块召回,再由回归模块筛选。在检测阶段,检测模块召回尽可能多的安装区域,这些区域通常集中在建筑物、墙壁和物体上。在召回足够多的候选区域后,回归模块负责解决透视和分类问题。为了降低坐标回归的难度,需要增加一定的规则先验,将安装框架视为由左上、左下、右上、右下四个点组成的凸四边形进行回归。最终的模型结果将被分类、过滤和重复,以保留高质量的安装框架。为了满足不同材料的特定要求,该算法还对安装框架进行分类,以进行有针对性的后期处理,例如,分割长区域,以创建整齐的灯笼串效果。

值得一提的是,虽然由于性能原因,技术团队在算法方案上最终选择了“目标检测+回归”的方案,但基于VP检测的方案具有更真实的挂载效果,因此也应用到了剪辑游戏中,服务于服务器端的剪辑特效《郭超赛博2022》。





基于“测试+回归”的支柱安装测试结果

正常估计

道具挂载检测后,在真实环境中插入虚拟物体时,需要准确理解世界的三维法线信息。使用SLAM直接在摄像机坐标系中输出三维方向存在空缺陷和来自三维点的方向不准确,需要一种面向移动终端的轻量级法线估计解决方案。

因此,技术团队用激光雷达在iPhone上离线采集了大量的环境数据(包括室内外不同光照条件下的数据,以及渲染生成得到的场景法线数据),训练出了一个健壮的终端法线估计模型。此外,团队还进一步利用手机IMU的重力方向来修正法线角度,以保证挂载始终能匹配重力方向,更符合一般的架构规则,避免深度学习网络在法线预测中不完全准确的情况。从下图的结果可以看出,在不同的变换角度和光照条件下,虚拟贴图仍然可以很好地拟合图像法线,从而支持各种虚拟挂载的真实特性。





基于正态估计的映射效应

视觉冲击

为了持续跟踪建筑物上的道具,技术团队构建了大场景下的视觉SLAM系统,可以在Tik Tok大多数用户的手机上实时跟踪。SLAM系统具有以下特点:

用户不敏感的快速初始化。传统的视觉SLAM算法依赖于严格的初始化,用户在使用AR特效前需要做足够的锻炼,这大大提高了AR特效的使用门槛。为了让Tik Tok的用户更方便的玩AR特效,该方案基于轻量级多级初始化设计研究,结合场景结构先验、多假设滤波估计和小运动下的全局优化,瞬间实现AR体验的第一帧。

涵盖不同的手机型号。由于Tik Tok用户覆盖面大,尤其是Android用户数量多,对算法的鲁棒性要求更高。视觉SLAM系统主要基于视觉,同时利用系统的传感器信息来约束姿态。由于不同手机的传感器质量参差不齐,系统还结合了离线标定和在线估计的策略,在通用参数离线标定的基础上实时优化参数,从而低成本覆盖更多用户模型。

大场景的实时跟踪。在大场景下,纯视觉的SLAM系统容易受到远点和动态物体的干扰,特别是当摄像机长时间直行时,估计的摄像机高度容易发生漂移。该系统基于多帧几何分析和语义先验,对视觉特征进行分类,同时压缩实时全局信息,并在系统中不断优化,减少长时间运动下的漂移。

网格和平面估计。该系统基于SLAM系统输出的稀疏点云,结合2D图像信息和三维平面估计信息,实时网格化单帧点云。为了解决远处区域纹理弱、缺乏几何信息的问题,系统还结合了上述法线估计模型,以保证整个区域的可安装性。



大场景的轨迹跟踪和场景的三维估计

以SLAM初始化为例。当用户实际使用道具拍摄时,经常会出现SLAM系统因为相机只旋转或静止而无法初始化,或者SLAM初始化成功,但重建的网格质量仍然达不到特效要求的情况。为了解决这个问题,系统引入了深度估计模型来估计静止图像的相对深度,重建三角网。SLAM初始化成功后,三角网格将进行过渡和融合。这样即使SLAM无法初始化,也可以输出三角网格,结合道具装裱检测和法线估计来装裱材质,在后续的使用过程中也可以过渡到真实的深度场景。

程序包容量优化

由于AR中国年整个流程涉及众多算法模块,整体算法包规模过大,会进一步影响特效分发到移动端的成功率。为此,技术团队还针对封装尺寸优化了性能。在深度模型训练过程中遵循以下原则:首先通过AutoML算法找到一个紧凑的模型结构;然后采用剪枝和非结构化量化相结合的压缩算法,在训练中将网络中不重要的权值剪枝为零值,达到一定的稀疏比例,然后对剩余的非零权值进行非结构化量化。最后,结合低位结构化量化算法,在保证算法精度的前提下,极大地压缩了算法的模型体积。基于上述方案,有效控制了所有算法模块所依赖的深度模型的体积,保证了最终特效分配的成功率。

智能创意团队介绍

在Tik Tok,大量创新和受欢迎的特效来自字节跳动-智能创作团队。智能创意团队(intelligent creative team)是字节跳动音视频的创新技术和业务中心,涵盖计算机视觉、图形、语音、拍摄和编辑、特效、客户端和服务器工程等技术领域。,并在部门内部实现前沿算法-工程系统-产品全链路闭环,旨在以多种形式向公司内部各业务线和外部合作客户提供行业前沿的内容理解、内容创作、交互体验和消费能力以及行业解决方案。

目前,智能创意团队已经通过字节跳动的火山引擎向企业开放了技术能力和服务。

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友