豆包视频生成模型:ISP+光学为AI之眼,有望实现量价齐升
ISP芯片指的是Image Signal Processor(图像信号处理器)芯片,主要用于数字相机、智能手机和监控摄像头等图像处理应用。它是一种专门用于图像处理的芯片,能够处理从图像传感器捕捉到的图像信号,包括图像去噪、色彩校正、图像压缩等功能。
而SoC芯片是System on a Chip(系统级芯片)的缩写,它是一种在单个芯片上集成了多个功能模块的芯片。SoC芯片通常包括中央处理器(CPU)、图形处理器(GPU)、内存控制器、多媒体处理器、通信模块等功能模块。它们可以广泛应用于智能手机、平板电脑、智能家居、智能汽车等各种嵌入式设备。
总的来说,ISP芯片和SoC芯片有不同的应用领域和集成度。ISP芯片是专门用于图像处理的芯片,而SoC芯片是一种集成了多种功能模块的芯片。
摆脱语言或标签数据依赖,仅靠视觉认知世界
现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。
模型训练:
让模型“观看”学习一个包含大量视频演示数据的离线数据集,以此得到一个可以根据过往观测,预测未来画面的【视频生成器】。
模型推理:
Transformer生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为【任务】执行动作。
视频输入需求爆发→ISP+光学量增
训练端:训练效率提升,对应视频投喂量大幅提升,带动视频入口ISP+摄像头的硬件配置量提升。
推理侧:环境感知和预测能力跃迁,端侧场景爆发,加速AI终端ISP+摄像头需求量增。
现有的智能终端如AI眼镜主要通过摄像头理解环境,通过解释环境辅助用户生活。而视频生成模型不仅环境感知能力增强,还能够“预测”下一帧画面,并达成相应【任务】。该模型用之于端侧,有望转换过去的“被动理解”为“主动推送”服务,进而迸发更多【效率提升】场景,加速AI终端放量。
视频输入质量提升→ISP+光学价增
现阶段各类AI终端的视频输入质量尚有提升空间,如AI眼镜只配备12M摄像头。主要系视频输入质量需求不高。未来视频理解能力提升有望催生更多高清视频需求,进而带动相关配置ASP增长。