在过去的一年里,字节跳动的技术团队提交了近3000万条代码,并在多个技术领域持续投入,从计算机视觉到自然语言处理,从大数据到安全,再到机器人等前沿探索,都取得了新的进展。
同时,字节跳动的技术团队致力于开源社区的建设。今年已经开放了微服务中间件CloudWeGo、前端R&D框架Modern.js、LightSeq训练加速引擎、颤振调试工具UME、移动R&D工具链MBox、GAN模型压缩算法OMGD等30多个重要项目。
我们挑选了10项有代表性的技术成果与大家分享。
BVC系列编码器夺得17项冠军
这是BVC2编码器初始化和启动过程的伪代码。
BVC系列编码器由字节跳动技术团队开发。今年4月,MSU 2020全球视频编码器大赛公布了完整的结果,BVC系列编码器参加了17个项目,均在最佳质量评测中排名第一。
BVC编码器性能领先,同等质量的视频内容可以节省8%-15%的带宽和存储成本。使用BVC编码器转码后,即使在地铁和户外网速较慢的情况下,用户也能享受到高质量、流畅的视频体验。
目前,这些技术成果已经通过火山引擎向企业客户开放,并逐步应用于Tik Tok、西瓜视频等产品,进一步降低了创作成本,显著提升了用户的观看体验。
左边用现行标准,右边用BVC2.0处理后,画质更清晰。
并行翻译技术首次夺冠,打破自回归模型绝对统治地位
上面四行代码展示了“平行翻译”技术的训练过程。
6月18日,在WMT2021国际机器翻译大赛中,字节跳动的技术团队参加了并行翻译系统,获得了德语到英语的机器翻译比赛自动评测第一名。
这是平行翻译在国际比赛中的首次亮相,成功击败了从左到右逐字翻译的“自回归模型”技术,打破了后者在机器翻译领域的绝对统治地位。
目前,并行翻译技术已应用于火山翻译产品,支持飞书、西瓜视频等服务的翻译需求,并将通过火山引擎服务外部企业客户。
左为从左到右的逐字输出,右为“平行翻译”同步输出。
59年来,中国科学家团队第2次摘得ACL最高奖项
上面的代码片段显示了词汇学习方案VOLT的部分过程。
字节跳动技术团队在一篇关于机器翻译技术的论文中提出了这一方案,并通过最优传输算法计算出最优词汇大小,生成适合机器翻译任务的最优粒度词汇。
与主流词汇BPE相比,VOLT方案可以节省约92%的计算能力,不仅显著提高了训练效率,也大大降低了训练成本。可以说是真正的绿色环保方案,工业应用潜力巨大,可以成为节能减排的利器。
在8月5日举行的国际顶级学术会议ACL 2021中,字节跳动技术团队的这篇论文获得了“最佳论文”的荣誉。这是ACL成立59年来,中国科学家团队第二次获得最高奖项。
VOLT是绿色环保方案。
业界首家720p/1080p端上实时超分技术
上面的代码片段展示了移动端实时超分的处理流程。
由于拍摄设备和网络传输的限制,很多视频质量很差,无法满足用户对极致高清画质的需求。超技术可以有效解决这一问题,但算法往往需要很高的计算能力,并导致极高的功耗,因此无法大规模应用于移动设备。
字节跳动的技术团队针对手机上720p/1080p 35fps以内的视频,开发了超低功耗的超分辨率算法,将当前功耗优化至行业通用指标的十分之一(20ma)以下,彻底解决了超分落在移动端的行业技术瓶颈,为亿万用户带来高清画质播放体验。该方案为行业首创,已在Tik Tok、头条、西瓜视频等多家业务的视频播放场景中使用。
这段代码显示了用于大型视觉模型的无监督预训练方法iBOT。
该方法适用于计算机视觉领域,可以从海量图像数据中自动学习结构和知识信息,帮助计算机更好地理解现实世界。计算机视觉是近年来人工智能发展最快的领域之一,应用前景广阔,包括智能汽车、无人机、智能眼镜等。
今年11月,由字节跳动大学、约翰·霍普金斯大学和其他机构组成的联合小组提出了iBOT。在十几个任务和数据集上,iBOT都达到了业界最高水平。
目前,该技术已经正式开源,并将逐步应用于字节跳动的各种视频服务、智能硬件、VR/AR等技术领域。
左边是车灯、狗耳朵等类别语义,右边是条纹、波纹等纹理语义。
无需图纸就能自主设计桥梁的机器人
这是一个智能机器人的代码片段。
这种机器人具有更智能的任务理解和抓取能力,不需要看图施工,可以自主设计架构,完成工程模型搭建。此外,这款机器人还可以优化不完美的设计。当发现左侧桥面不够平整时,机器人会重新排列积木;建桥的时候,机器人会把多余的积木去掉,最大程度的节省材料。
机器人“无图绕行”技术由字节跳动技术团队与清华大学合作完成,入选IROS 2021国际智能机器人与系统大会。从R&D阶段到商业化还有很长的路要走,但这种技术有很大的潜力,可以进一步帮助人们提高效率,降低成本。
这是一个实时数据湖集成代码。
基于开源大数据计算框架Apache Flink和数据湖框架Apache胡迪,字节跳动技术团队打造了流数据湖集成解决方案,解决了Hive不支持更新的痛点,支持纯流数据写入。与Hive相比,实时数据有了很大的提高。
就好像我们在离线数据仓库和在线数据库之间搭建了一条更宽敞的“超级高速公路”,端到端的数据同步更快,占用的资源更少。比如Mysql导入Hive,端到端的数据延迟从1个多小时降低到5-10分钟,端到端的计算资源节省了70%左右。
依托这条“高速公路”,数据分析场景的实时性能进一步提升,可以帮助商家根据实时情况做出敏捷决策。
实时数据湖集成技术有助于商业敏捷决策。
云原生分布式数据库,解决海量数据实时分析难题
这是ByteHTAP数据库系统的伪代码。
ByteHTAP数据库是由字节跳动技术团队开发的云原生分布式数据库,旨在提供基于海量数据的实时分析和业务决策能力。
数据分析对于提升用户体验和产品竞争力非常重要。ByteHTAP数据库具有百万QPS的写入能力,更新后的数据可以支持一秒内的复杂查询,并保证数据的事务一致性。相比业界常规的“将线上数据导入线下数据仓库进行数据分析”的方案,ByteHTAP可以大大降低硬件和运维成本。
目前,ByteHTAP数据库已支持字节跳动部分业务,并将通过火山引擎服务更多企业客户。
行业中常规解决方案的延迟是几天/几小时的量级。
ByteHTAP的延迟时间小于1秒。
视频隐藏水印能力跻身行业前列
这是隐藏水印算法的一段代码。
隐藏水印,也称为暗水印,经过传播和处理后仍然可以被提取。该技术广泛应用于数据安全和版权保护领域,用于识别数据的所有权和版权,追踪数据的流向和来源。
基于多种融合算法,字节跳动的技术团队开发了隐藏水印算法,满足了中长视频、短视频、WEB平台等不同场景对视觉效果、码率等的极致要求,同时保证隐藏水印能够“从容”应对压缩、编码、裁剪、屏幕摄影等处理。
今年10月,该算法获得国家广电总局数字媒体内容保护技术研究重点实验室ChinaDRM Laboratory认证,这意味着字节跳动的视频水印能力位居行业前列,正在参与行业标准的制定。
添加水印前后
节省大页内存管理开销,一年解决行业十年难题
这是一段Linux内核代码。
Linux是最常用的操作系统内核,稳定性高,支持很多企业服务器的运行。但是,一些Linux云计算场景使用大页面,带来了额外的内存管理开销。对于大规模的服务器,这个损失会成倍增加。这个问题困扰了行业十几年,一直没有解决方案。
字节跳动技术团队在一年内找到了降低内存管理开销的解决方案,为使用大页面场景业务的公司节省了1.56%的内存。这意味着一台1024GB的服务器最多可以节省近16GB的内存,可以给行业带来巨大的收益。
目前,该方案已经开源并集成到Linux内核的主线中,得到了业界的认可。
技术带来新的想法,字节跳动不会停止。