5G开启倒计时 AI内容服务已进入新赛道

2019-05-28 17:40:35 来源: AsiaOTT 热度:
  2019年被誉为中国的“5G元年”,它将为视频行业带来巨大的改变。在5G技术的支撑下,传输速度较于4G将快百倍,高速度、泛在网、低功耗、低时延的5G优势将革新当前的视频产业。第七届中国网络视听大会上,围绕这一话题,金山云高级技术总监韩博发表主题演讲,重点阐述5G背景下,AI内容服务产业随着视频生产、服务、消费方式的升级,在技术演进过程中的突破性进展。

  金山云高级技术总监韩博在大会发表主题演讲

  AI内容服务随5G同行

  5G网络是信息基础设施又一次全面升级,能为跨领域、全方位、多层次的产业深度融合提供坚实支撑。韩博表示,5G将促进数字内容制作、分发、呈现的全产业链升级。AI内容服务作为贯穿视频内容生产全过程的重要“参与者”,已做好了迎接5G时代到来的准备。

  以金山云金睛为例,它基于金山云强大的云计算基础资源能力和海量数据积累,专注于图像识别、语音识别、多模态视频分析、文本识别、人脸识别、行人车辆识别等人工智能领域的研究,提供跨行业、多场景的AI解决方案。在AI内容服务方面,已覆盖内容生产、内容风控、内容分发全环节。

  “我们的生活不仅是一系列的静态快照,而是随着时间变化在现实世界动态发生事件,视频内容更是如此。内容趋势的变迁,同时也会推动人工智能技术的演进。基于此,金山云金睛在单模态识别的基础上,升级为多模态融合理解,以应对5G时代低延时、高速率、庞大体量的AI内容服务需求。”韩博介绍道。

  多模态融合理解带来认知升级

  多模态,简单来说是相对于单一的视觉、语音、OCR识别等,将多个模态的信息结合起来,也就是视频中的音视图文内容进行综合判定、理解。相比传统单一的交互模式,多模态融合技术。表达效率和表达的信息完整度更高,是智能交互的发展趋势。

  韩博介绍,多模态融合理解技术可以对视频内容进行精准的场景识别、对象跟踪、行为理解、图文联想等。比如基于单模态的图像识别很难判断出直播过程中,主播是在抽烟,还是在吃棒棒糖。但是基于多模态的视频理解,我们可以通过将连贯主播的行为动作进行分析,判断是否有点烟行为,是否有吐烟行为,从而准确的判断主播是否在抽烟。

  除此之外,在视频内容的生产过程中,多模态融合理解技术优势明显。例如自动进行语音转写,并且放到指定位置;实现智能BGM功能,根据视频内容自动推荐背景音乐;支持视频特效功能,对应视频场景或者动作,给出视频特效等。

  相对于 AI 目前所展示出在图像和语音领域的单一感知能力,视频理解更加复杂,也更加困难,这体现在理解视频是二者的叠加,实现多模态融合理解的背后,需要技术的突破。韩博在现场重点介绍了金山云金睛在多模态理解技术上的突破——AI算法团队通过训练超千万个高质量的短视频,得到的具有很强的泛化能力的内容理解模型和金山云金睛专利时序算法。

  多模态融合理解必须全面捕捉视频内容中的时序信息。金山云内容理解模型通过三维时空卷积(3D conv)和三维时空卷积长短时注意力循环神经网络(LSTM and Attention)来精细捕捉视频单帧图片的局部与整体时空信息。受人脑注意力机制的启发,引入“时空注意力机制”,使得模型可以聚焦关键帧、关键位置的信息,降低无关帧对模型性能的影响。整个模型不需要任何人工干预,输入原始视频,就可以得到最终的预测结果,整个模型精度高、速度快。

  金山云金睛内容识别已经全面运用多模态视频识别技术进行视频内容处理,可以更加精准的理解视频内容,帮助内容平台快速、精准审核视频内容,以及对视频进行精准的标签分类和特征提取,用于内容推荐和分发。为平台优质内容产出、打通作者和用户间壁垒,实现平台差异化布局夯实了技术基础。

责任编辑:
5G AR VR

相关推荐

2.5G移动网络的流媒体技术发展分析

一、现状分析在手机增值业务市场,短信、彩信、彩e等虽然有了交互、24小时不间断等不同于传统媒体的特点,但传输的主要是静态为主的图像和文字内容,影响了其媒体作用的充分发挥。随着最终用户需求的提升,如何更好地融合声音、文字、图像,支持多媒体功能,既发挥短信方便、快捷的优点,又可以弥补短信形式单调的不足,真正使移动用户”振聋发聩",进入一个有声有色、逼真形象的美丽世界成为移动运营商普遍关心的话题。流媒体(StreamingMedia)的出现改变了这种状况。它不需要下载整个文件就可以在向播放器传输的过程中一边下载一边播放,实现了在网上点播或观看电影、电视的梦想。现在,以”流”的形式进行数字媒体的传送,

eSilicon 与 MIPS 宣布28 纳米下1.5GHz处理器集群

尊敬的媒体朋友:最大的独立半导体价值链制造者(valuechainproducer,VCP)eSilicon公司,以及业界标准处理器架构与内核的领导厂商MIPS科技公司共同宣布,已采用GLOBALFOUNDRIES的先进低功率28纳米SLP制程技术,在GLOBALFOUNDRIES位于德勒斯登(Dresden)的Fab1进行高性能、三路微处理器集群的流片,预计明年初正式出货。SoC设计已可立即开始。MIPS科技提供以其先进MIPS32®1074Kf™同步处理系统(C

5G卡位战:下一个十年通信的预备赛

两年之前我们刚开始相关研究的时候,还没什么人愿意谈5G。现在我很高兴看到越来越多的公司加入进来了。欧盟METIS 5G项目总体负责人,来自...