您正在浏览位置: 751时尚资讯网首页 >> 极客大会2019最新资讯 >> 正文
新娱乐时代的爱奇艺,工程师和艺术家们共同成长
来源:本站时间:2019/1/20 12:11:00评论:

    作为一名技术极客,加入一家娱乐公司,对爱奇艺 CTO 刘文峰来说,是个不小的挑战。刚加入时,刘文峰还颇为忐忑,看剧本、跑片场,这些工作都是他没经历过的。而爱奇艺的成员也是包容了这两种人才,两类人思维方式不同,但通过包容、尊重找到相处之道。

    在爱奇艺自制综艺节目的拍摄现场,由于节目类型注重演员的临场自我发挥,为了避免遗漏一名演员可能有 10 台摄影机对准他,播出 1 小时的综艺节目,现场拍摄可能最多有 50 台摄像机,每台摄像机大概进行 20 小时的录制,最终产生超过 1000 个小时的原片。如何剪辑海量的录像?用哪台、用哪段?后期工作让导演组和制作团队都格外头疼。

    技术人员针对现场提出了改良建议,通过 AI 语音识别和人脸识别等技术,将时间戳精准对齐,将不清晰的画面筛掉,寻找录像中某句台词或某个画面也都变得简单快捷,之后再交给人类做后期剪辑,不仅提高了工作效率,还大大缩短了节目上线的时间。爱奇艺的 ZoomAI 超分辨技术用于老旧视频修复和动画增强,让老电影有了高分辨率而焕发新生,HomeAI 让消费者可以通过语音直接控制播放影视,甚至提问「这个演员是谁?」、「我只想看 XXX」、「跳转到 XXX 跳舞的片段去」并得到回应。这些能提升工作效率和用户体验的科技创造,都是艺术家们的创意做不到的,却让艺术家们的创意变得更加精彩。

    在爱奇艺的工作经历,让刘文峰感慨学到了很多技术之外的知识,但他身上的技术底色依旧未变。从诞生之初,工具的进步就一直在推动文化艺术的进步,在互联网时代,大数据、AI 等科技并未远离科技与人文的十字路口,而是配合和赋能创意,让创意更加有趣。

    以下是 爱奇艺 CTO 刘文峰 在 2019 极客公园创新大会上的演讲内容(经极客公园编辑整理):

    大家上午好!经过前面两个论坛,可以让张鹏休息一会儿,下面我来给大家做一些分享。

    今天我分享的题目是「科技×创意,新娱乐时代的成长法则」,实际上这个题目想了很久,为什么是这样一个题目呢?最开始说的主题是「人和组织的成长」,我想这个主题挺契合我的。我作为一个技术男,有时候也可以成为一个极客,加入一个娱乐公司,实际上最开始想加入互联网公司挺好的,可是进来之后发现真的是一家娱乐公司,对于我来说挑战很大。

    在这么多年的时间中,变化也蛮大,所以我觉得这个主题很不错。后来也看到今天最后一个演讲嘉宾是皮克斯的创始人和 CEO Ed Catmull,这个特别好。因为爱奇艺本身的基因和硅谷、好莱坞的文化相结合,正好科技和创意可以把人与组织的关系关联起来,所以非常高兴能够参加今天这个分享。

    我们认识上的人工智能和科技创意之间的关系,实际是看工具的发展到底是什么样的。大家都很清楚这样一个过程,从 3000 年前古埃及人类利用滑杆等一类机械的东西,做出那么宏伟的金字塔,中间经过了非常长的时间,机械可能有一些发展。但是工具发展的相对比较慢,一直到 18 世纪中叶时,才开始利用蒸汽,发现了新的动力,有了第一次工业革命的发生。

    19 世纪中叶时又发现了电,并且电被充分利用到新的生产上来,你可以发现机械和电都带来了工具上的变更和生产力的大量提升。

    20 世纪中叶的时候就更多了,核能、生物技术、电子计算机、信息产业发展了起来。你可以看到每个工业革命的时间周期越来越短,现在变得更短了。比如说人工智能,1956 年在达特茅斯大学会议上,人工智能的概念才被提出来,提出来之后到现在已经经历了第三波人工智能浪潮。

    信息产业发展不那么快的原因是因为一直不容易找到方向,很难讲现在处于第三波浪潮的波峰还是开始下降的趋势。我们很难预测未来几年人工智能会怎么样,但是至少从我们的角度来看,人工智能作为一个工具、更先进的方法,它还可以持续比较长的时间。

    所以,我们顺势而为,将 AI 与科技做了非常深度的结合,能够充分利用在娱乐的场景下。

    大家可以看到右边的技术、应用场景,这个非常重要的价值在于 AI 在第三次浪潮时(深度学习、强化学习技术),我们其实不那么容易找到非常准确的应用,可是同时发展的云计算和互联网带来的是非常大量的数据,所以要找的是人工智能利用深度学习技术,如何利用大数据产生应用。而娱乐、互联网的话,这样的商业模式就更容易在这中间寻找到机会。

    我们寻找的机会是如何在整个公司运转流程中,从最初开始的内容创作-内容生产-内容分类和标注-理解内容-内容分发到用户-对用户提供播放体验-广告主变现的能力,最后再到客服,在这个完整的生态上都加入了人工智能各种各样的能力。这些能力使得我们能够提升效率,利用机器的能力和数据挖掘出来的价值,产生更低成本、更大规模效应的东西。

    每个应用的细节我在后面会举一些例子来讲,但是重点还是人和组织怎么创新和发展,以及如何能营造新的创新机制。

    我们认为爱奇艺能做到前面那些点,很重要的原因是我们的基因。我加入的时候还是比较忐忑的,在一家娱乐公司中,我平时可能天天和技术打交道,是否能融入进来。加入之后,我看一下剧本,要去片场看拍摄现场大家是怎么工作的,发现有非常非常多的传统东西。

    比如我们公司技术人员可能更擅长于代码沟通,至少我用邮件沟通、共享工具是可以的。可是片场非常原始,甚至还有用纸记录每天要做哪几件事情的,非常原始。

    我们的人员就是由这两部分人组成的,一半是科技人员,工程师、算法、IT、运维等,另外一半就是文科生,内容创意、制片人、导演、演员。他们的管理方式工作方式,甚至工作时间都不一样,有正常上班的,也有从来都是过美国时间的。

    所以,我们让科技人才和创意人才尽可能的一起工作,碰撞出火花。在成长这方面,爱奇艺做到了让技术人员、工程师、算法人员理解娱乐的本质,理解内容是什么,理解用户的娱乐需求在哪里,才能做出更好的产品,用户喜欢的内容,这样才能帮助内容的营销、推广、宣发等。

    我们让内容人员也要去理解技术,使得他们不需要靠砸人做内容、运营。因为传统的娱乐行业、媒体基本上有一点类似于劳动力产业,非常非常多的人都做着非常细的机械性工作。其实技术人员一进去之后,我们发现这里可以优化,那边可以自动化,这个地方还可以做的更好等等。

    所以,我们通过互相包容、互相尊重、更多的交流机会,技术人员直接在节目摄制组的现场找到非常多合作机会和创新。

    比如说工程师、科学家去开会时会讲到听起来非常普遍的词语,比如并发、吞吐量、IT、运维、做网站;而内容制作的人说的词不一样,我们听起来非常虚,他们听起来非常正常,比如大计划、版权、热度、娱乐等。

    所以,很多时候我们会发现产品经理经常给技术提一些不靠谱的想法,这还是产品经理提的。如果你真的要和内容制作人合作,你会发现他提的想法更加天马行空,互相之间不能理解。

    比如说我们在生产的时候,这个生产指的是我们将内容从最原始制作出来的片源、素材等转化成互联网上可以发布、传播、让用户观看的内容。很重要的一点,就是我们要保证视频编码非常清楚,而且用户能够接受。

    同时,我们也通过算法能够去识别这个介质是不是不正常,比如有没有异常的黑场,有没有一些花条,有没有不正常的黑边等等,这些他们很厉害,能够写出算法。可是,真的把这个编码编完之后,放到电视上去比较效果,评判颜色、风格是不是符合我们创作人员的意图,我问过好几个博士生,两个内容放在一块儿,相差看不出区别。结果内容的人过来一看说,不对,你那个地方有很明显的问题。

    所以,我们加入了主观检测的流程,不在技术团队的内容、艺术创作、色彩更敏感的文科生对这个技术评估,让我们的博士生、科学家们更多理解创作的内容。这个清晰不只是边界清晰,更重要是如何能够正确表达创作者的意图,这是一个非常简单、非常基础的技术和创意之间合作的例子。

    第二个合作例子,我刚才讲的技术人员直接到节目拍摄现场,《国风美少年》、《中国音乐公告牌》、《中国新说唱》等等,这些节目是爱奇艺的自制综艺节目,完全由我们自己的团队和员工,在摄影棚里面拍出来的。新的类型综艺和传统电视台综艺有很多不一样的地方,更注重演员的现场发挥。既然要注重演员的现场发挥,我们没有办法给这个综艺写剧本,最多提供赛制、规则。演员在舞台上的表演很有可能会发生在任何时刻、任何地方,所以现场的场记很痛苦。因为场记很有可能有一些点没有捕捉到,事后再找这个片子的时候变得很困难,这是第一。

    第二,我们在现场布置最多达 50 台摄像机,50 个镜头对准一个舞台。这带来一个结果,大家知道在节目录制现场,摄像机都非常高清,每一秒钟存储容量很大。一个节目录制下来,本来 1 小时的节目,可能录制超过 1000 个小时的原片,才能剪出来。这 1000 个小时,最多的时候 50 台摄像机,每个摄像机拍 20 个小时内容。这些内容拿出来之后,我们用最先进的工作站进行处理都非常痛苦。你要找到合适的时间点,并且同一个表演,演员说的同一句话,当时有 10 个摄像机同时对准他,用哪个更好。

    所以导演组和制作团队非常痛苦,他们实际上招了很多外包、团队,如何把后期能够做好,怎么赶工,晚上 6 点上线,几乎到最后一刻,5 点的时候才把节目给出来。

    技术人员到现场,说这个好像可以有别的方法解决,最简单的解决方法是,至少我们不需要那么清楚捕捉的点。场记去找这个台词的时候,完全可以将语音转成文字之后,你直接用搜索,搜到文字可以找到至少哪一个片段,这是第一。

    第二,我可以用人脸识别技术,将每一个人在什么时候说话的镜头精确匹配到。同时还能经过 AI 初筛选一遍,所有不合适的侧脸、所有不清晰的模糊画面,这些都不用看了。

    所以,在我们人工专业剪辑之前,加入了 AI 识别和 AI 系统合成等工作,还包括多个摄像机同时拍一个场景的时候,如何将时间线能够精准对齐,之前我们用专业软件做的,现在直接用 AI 做。

    所以,技术人员到场之后,内容创作人员、后期人员发现找到救星了。因为来了之后,立刻将系统原形做出来之后,效果非常好,所以现在这几个节目,直接使用了 AI 能力拍片。

    我们互相之间都找到自己的契合点,因为我们做人脸识别技术时,好多时候找不到应用,现在正好找到应用了。内容创作人员发现,我们用这个提高效率之后,效果会非常好。

    这是我们的一个播放上的创新,刚才讲的如何将播放体验变好,如何能够将我们内容更清晰展示给用户。

    举个例子,我们有很多低质的视频,来源很有可能是非常古老的。大家知道在 70、80 年代的时候都是胶片存储,胶片质量那时候是最好的了。到 80 年代末的时候,录像带、VCR 出现,到后来 VCD、DVD 等等。现在你看任何一部 90 年代和 90 年代之前的老片,会觉得不清楚。不清楚的主要原因不是当时拍的不够清楚,当然可能也有这部分原因,更重要的是现在设备变好了。现在用的 1080P 内容,看 VCD 都是 540P,所以在这里会自动拉伸。拉伸之后,每个像素点会变得很大,质量很差。

    所以我们这里面做的技术,ZoomAI,利用人工智能的算法,去学习我们现在更清晰的内容。我们在 1080P 分辨率下展示的清晰内容的特征是什么。当你学习到更多清晰照片、清晰视频的特征之后,就能将这个模型应用于不清晰的、更老的内容,把它变得更清楚。

    这听起来很魔幻,内容制作人员直接说,这好像是神话吧。因为本身不清楚,如何能变得更清楚,难道还能造出一些点,把当时的拍摄现场信号还原吗?这不太可能。但是,确实做到了。我们一方面对一些老的电视剧进行重新生产,做出新的版本。比如说像现在 540P 的《倚天屠龙记》可能只有 VCD、DVD 的版本,我们做成 1080P 的,大家可以看一下效果。我们也对一些老电视剧,像《渴望》等等都重新上线了 1080P 的新版本,效果非常好。

    同时,我们也利用 AI 技术做了一些更有意思的事情,比如说体育直播。我们拿到了信号源经常都是 25 帧的,25 帧在进球的时候会不够用的,仔细的人会看见画面是一顿一顿的。所以,我们直接将它用 AI 加入更平滑的切换,使之能够实现到 50 帧,50 帧的效果看着之后就非常的惊叹了,直接非常顺畅的过去。当然,也是因为人的眼睛越来越刁造成的。

    我们可以看一下效果,540P 和 1080P 的对比,看眼睛、头发上一些很细节的地方。我们利用它批量处理,会比使用第三方通过人工对每一帧进行修复的成本会低很多。还有一个利用 AI 技术改变的是播放交互场景,我们称之为 HomeAI,这个可能包括刚才傅盛也讲到了智能音箱等等。实际上,爱奇艺更多在想如何能够利用现在出来的 ASR、语义理解这些技术利用于娱乐场景,所以 HomeAI 实际上是在娱乐场景下,解决更多的获取信息,让人和内容之间进行交互的一些能力。

    举个例子,这样的一帧画面,看过的人都知道这是《延禧攻略》的一个画面,这个画面拿出来做例子,是通过内容的理解。我们可以识别出这个动作是打伞,识别出两个演员分别是谁,演的角色是什么,也能识别出当前的场景是在下雨,如果这个字幕是内嵌字幕的话也可以通过 OCR 识别出来。

    识别出来这些精彩的片段有两个作用,第一个作用是可以直接剪成短视频,第二个作用是让用户知道、问问题可以回答,包括像人物的片段、情节的提取都能做到,后面有段视频,实际上是我们新做的,在座的北京观众如果有歌华有线,你可以装一个产品叫歌华小果。这个实际上是一个很创新的应用,我们将直播的内容,比如 CCTV1、芒果台、浙江卫视等等这些直播内容和奇异果 TV 的点播内容完全融合在一起。

    你不需要在看有线电视或者 OTT(互联网视频)的时候切换不同的 HDMI,你可以直接在一个设备下点播和直播互相切换。更重要的是,能够利用 AI 的能力通过语音直接控制,跟摇控器说一声「我要看芒果台」,电视直接切到芒果台;跟摇控器说一声「我要看《延禧攻略》」,直接就播放《延禧攻略》,非常的流畅。

    更有意思的是,我们可以在任何一个画面下,直接问这个演员是谁,这个演员还演过什么剧,给我推荐一部他演的最好的内容,所以这个 HomeAI 的介绍大家可以了解一下。

    (播放视频)

    包括我们的儿童产品奇巴布,小孩特别喜欢用语音交互,现在家里五六岁的小孩可以在不认识字的情况下,非常流畅的利用语音使用各类 APP,包括奇巴布的 APP。

    爱奇艺建立了全网最全的明星人脸库,这个人脸识别和手机上人脸识别不一样的地方在于:手机的人脸识别是为了识别这个人是不是你,而我们的人脸识别是为了识别每一帧画面里面,这个人是谁,所以它的复杂度、匹配度更高。

    我的演讲就到这里,我想表达的是科技让创意更加有趣,所以科技和创意的结合能够让创新成为可能,谢谢大家!


评论表单加载中...
正在加载评论列表...
©2010-2019 751info.com | 京公网安备1101054291号 | 京ICP证100893号| 网站服务条款 | 联系我们 |