hongkongdoll face reveal
OpenAI刚刚推出的Sora像是一颗炸弹,再一次引爆全球。
当作AI视频模子,Sora不错凭证文本指示创建践诺且富足想象力的场景,能够生成具有多个变装、特定类型的深远,以及主体和布景的准确细节的复杂场景的高清视频,而且时长不错达到一分钟。
Sora对谈话的交融也达到了一个新的层级,使其能够准确地交融教唆词,并生成抒发充满活力的心扉的视频。它建立在夙昔对DALL·E和GPT模子的概述研究之上,建议了一种新的模子可能。它不仅不错交融用户在教唆中建议的条目,还能交融它们在物理天下中的存在方式。
进犯的是,Sora是一个diffusion transformer,而transformers依然在谈话建模、计较机视觉和图像生成等各大规模依然表露出了凸起的膨胀特点。
当作一种扩散模子(diffusion models),Sora除了能够凭证文本指示生成视频以外,还能够获取现存的静态图像并从中生成视频,准确地动绘制像的内容并关注小细节。Sora还不错获取现存视频并对其进行膨胀或填充缺失的画面。
OpenAI发布的工夫讲解认为,Sora的研究散伙标明,膨胀视频生成模子是构建物理天下通用模拟器一条极具远景的路子。它使东谈主工智能交融和模拟深远中的物理天下,迈向了一个新的高度。
因此,Sora也被认为是AGI杀青流程里的紧要里程碑事件,而不单是只是视频生成。
在Sora发布之前,Runway和Pika都被认为是视频生成赛谈的杰出人物。Sora发布之后,好多东谈主认为,它凭一己之力依然松懈“吊打”且行将“干翻”这两家新兴独角兽公司,并对创业者的运谈暗示担忧。
然则,他们我方对此却似乎兴盛更多于怯怯。Pika创举东谈主郭文景独家复兴钛媒体App称,“咱们认为这是一个很奋斗东谈主心的音问,咱们依然在计算径直冲,将径直对标Sora。”
此外,郭文景还自大,目下依然在招东谈主了,具体磋商暂时还不成对外自大。
Pika Labs成立于2023年4月,同庚11月发布首个居品Pika 1.0。Pika1.0能够生成和剪辑3D动画、动漫、卡通和电影,而且泛泛用户还不错对其进行加工,被视为一款零门槛“视频生成神器”。
在与钛媒体创举东谈主赵何娟的【AI壮盛代】系列对话中,郭文景曾经提到,目下生成式视频发展的一个进犯法例是算法的熟谙度,这亦然Pika的中枢主攻标的。
“我认为视频跟谈话模子不太一样,对于谈话模子全球依然知谈概况的步伐,算法其实依然比较熟谙了。但视频目下莫得很好的算法,它不是一个限制化的问题,不是说目下全球的GPU不够多,好多时候其实是算法上还莫得很好的一个念念路。”郭文景说。
而这次Sora的发布,也给行业提供了一个格外好的算法念念路,可能反倒为Pika这样的最初创业公司提供更熟谙算法道路可能。
事实上,濒临实力坚强的OpenAI,郭文景也早已作念好了准备。早在数月前,赵何娟曾经问过郭文景,在视频生成赛谈上最温煦的敌手是谁,郭文景其时即暗示,应该是OpenAI。
当作一个在东亚文化里成长的女生,郭文景大学本科毕业于哈佛,而斯坦福博士尚未毕业就辍学创业。其创立的Pika 1.0版块的demo视频流出之后,即一鸣惊东谈主,它能够生成和剪辑包括3D动画、动漫、卡通或者电影作风的视频,而且使用起来也很容易上手。
它还允许用户我方上传视频片断,并使用生成式AI来剪辑和从头构建场景。电影质感,动画级殊效,Pika 1.0的视觉后果十分炸裂,似乎让泛泛东谈主都能成为电影导演,行将成为一种可能。
这支最初由4个东谈主组建pika_labs,融资跨越5500万好意思元,险些系数AI规模的驰名早期投资公司都参与了此轮融资。
而就在Pika1.0发布才夙昔四个月不到,同赛谈的Sora的横空出世,在AI视频生成这条路上,又加多了好多变数和可能性。
以下是之前钛媒体创举东谈主赵何娟与Pika创举东谈主郭文景的【AI壮盛代】对话实录:
当电影梦重叠AI的“魔法”赵何娟:Hello,Demi,很欢娱又碰面了,很欢娱你能够来到我的直播间,与咱们沿途来探讨这一波AI波浪下壮盛代崛起的话题。当作硅谷最近格外火热的AI生成式视频面貌Pika的创举东谈主,外界对你们的筹划也终点多。我想全球应该都会对你的创业,对你本东谈主都会很感风趣。
咱们可不不错先从你我方的经验启动聊一聊,你是如何从哈佛大学读本科,然后到斯坦福大学读的硕博的?又如何选定了文本生成视频这个标的来创业的?
郭文景:全球好,我是Demi。我从小就对创意行业比较感风趣,也因此我选定去斯坦福大学。之前我一直在作念AI,两年前加入斯坦福大学读博,我选的标的即是AI for content creation.,用AI作念一些内容创作。
我其时跟了两个浑厚。一个浑厚是斯坦福大学东谈主工智能实验室的主任Chris Manning,另一个浑厚之前是用计较机作念电影的,他曾经获过两次奥斯卡奖。斯坦福亦然一直尝试用AI作念内容创作。我也在游戏公司作念过一些AI for臆造东谈主,AI for 3D游戏内容,以及原画的一些的探索。
之是以启动创立Pika,一个是对这个标的比较感风趣,另外亦然我我方终点想作念一些电影和视频,但我不是专科的。我曾经跟一些一又友想作念一个AI电影,流程让我意志到,天然目下视频制作依然格外先进,但照旧有好多瓶颈。
我认为AI一定会转变目下视频制作的方式。如果能够用最佳的AI工夫,去想象异日视频制作的方式,是一件格外有道理的事情。我就启动作念Pika这个面貌。
赵何娟:你在创立Pika之前,先进入了Runway的AI视频大赛。你目下作念的Pika,一个很进犯的或者说比较大的竞争敌手即是Runway。你为什么去进入Runway的大赛,同期要作念一个跟Runway王人备竞争的面貌?而且,Runway在这个规模里目下照旧最初的。
郭文景:我其时进入这个大赛的时候,莫得想要作念AI视频的公司,隧谈是风趣。其时咱们放寒假,我发现这个比赛就挺有道理的,我想作念一个电影。咱们其时还找了一个编剧去写这个脚本,也找了一些作念AI的一又友和大学同学。
这个流程,让咱们意志到目下视频制作还猛烈常复杂。咱们有好多创意是很好的,但并不成很好地杀青。咱们也用了好多Runway的用具,也用了一些其他的用具,咱们发现还有好多空间。
赵何娟:你发目下作念视频或者电影创作的时候,深入研究发现制作流程照旧有好多瓶颈,主要的瓶颈是哪些?
郭文景:我其时想要把视频的布景酿成一些其他的布景,包括几秒钟的视频,就要花掉我好几个小时,电脑还会出错。我想要把一个视频放镶嵌到iPad的屏幕,流程也格外复杂。我凭证一些教程学了一遍以后,第二遍我就径直健忘了,中间还有可能出错。这应该是比较简便的任务,没料想还需要花这样多时辰和元气心灵去作念。
咱们其时作念的电影,找了演员,作念的是从真东谈主酿成动漫的风物,其时可能还莫得任何模子去作念,视频到视频的功能。咱们其实是用了一些新的论文,去杀青的。其实AI能作念,但是市面上莫得很好的用具。
坚决AI信仰:比起数据,工夫才是底气赵何娟:目下GPT大模子也在络续升级,迭代速率照旧蛮快的。可能在你想作念那件事情的时候,还莫得效具能作念,但是可能当你我方去作念的时候,发现其他的用具都启动作念了。是以,你们来作念这件事情的中枢竞争力是什么呢?
郭文景:登程点,咱们照旧比较敬佩我方的工夫布景的。咱们创举团队有斯坦福博士,团队还有麻省理工等院校的博士,和一些比较格外优秀的本科生,我照旧想打造一个比较顶尖的工夫团队。
相对Runway来说,咱们还有几个不同。对于居品的定位和居品的计策,Runway可能照旧更偏向于一些专科的用户。它们推出的好多功能,主如果面向电影制作,或者说电影责任室,更偏于一些专科用户。
但咱们想作念得愈加偏泛泛用户能用的一些用具。不一定说是要作念电影,也不错是帮你剪辑一些个东谈主的视频,或者是作念一些比较有好奇的视频。
Runway它可能作念的范围会愈加广一些,比如说3D、语音、agent,各式不同的模子,方式更偏向于有一个新的算法,有新的一些功能。但咱们是从视频剪辑和视频制作的角度登程。
赵何娟:还有一个很进犯的问题是数据。比拟Runway这样依然跑在前边的公司,或者是比拟其他的一些大的平台,比如说,像迪士尼目下也在作念我方的视频生成的筹划的模子,你们会不会认为,数据是最难与之竞争的?你们如何贬责数据的问题?
郭文景:数据的确很难与迪士尼竞争。OpenAI是目下最佳的谈话模子,但是为什么有好多语料库的公司,莫得作念出最佳的谈话模子呢?迪士尼也不代表它的数据一定会更好,因为它的数据量比较有限。其实好多谈话公司临了照旧看工夫。
赵何娟:你刚才讲到的另外一个不同,你们的定位不一样。你们更偏向于泛泛用户,泛泛破费者,而不是只针对电影制作者这类专科用户。如何交融你们想要针对泛泛用户这样的一个定位?像TikTok这样亦然针对泛泛用户,每个东谈主都不错在上头作念一段创作或者短视频,是不是你们也会往平台标的去拓展?
郭文景:咱们目下莫得这方面的主张,咱们更多是基于工夫以外的一些功能性的拓荒。
赵何娟:那泛泛用户如何用你们呢?他们用Pika,更多是用来作念什么呢?
郭文景:咱们目下更多是但愿用户不错作念一些视频的生成和视频剪辑。具体的欺诈,目下咱们照旧比较通达立场,是让用户去决定。咱们目下更多是把工夫瓶颈毒害。
赵何娟:目下工夫毒害上最大的一个贫困是什么?
郭文景:我认为视频跟谈话模子不太一样,对于谈话模子全球依然知谈概况的步伐,算法其实依然比较熟谙了。但视频目下莫得很好的算法,它不是一个限制化的问题,不是说目下全球的GPU不够多,好多时候其实是算法上还莫得很好的一个念念路。
例如子来说,比如目下大部分常用的视频模子,凭证遐想来讲,它就不可能生成很长的视频,因为它每一帧的图片是沿途生成的。它有一些算法上的瓶颈,无法作念出咱们想象的那种格外长、格外好的视频。它其实还需要一些算法学问上的毒害。
赵何娟:接下来的创业里,对于你来说,还会有哪些挑战?
郭文景:AI是高速发展的一个行业,一定会有好多的变化,竞争敌手也有好多的变化,通盘行业日眉月异。更多的挑战是一些省略情的挑战,咱们也不知谈异日会发生什么。是以,对咱们来讲,咱们的心态是,这即是莫得什么挑战。
目下咱们更多的是想建立一支比较好的团队。莫得什么挑战是不成克服的。可能有些挑战更难一些,你花的时辰需要更多,去探索,去找到一个贬责有策画。
赵何娟:你之前是对AI和创作感风趣,但你与团队在磨合的流程,或者在组建团队的流程里,发现就凭风趣作念事,和作念公司之后,感受有什么不一样的吗?
郭文景:咱们很红运的少量是,咱们作念的公司,即是咱们的风趣。我即是目标用户。我偶而候责任闲的时候,就会去用咱们的居品,去作念一些视频。包括咱们最早的一些市集向的视频,即是我作念的。
咱们比较红运的少量,是因为咱们对我方的这个标的终点感风趣。是以,咱们的团队亦然相对比较有活力,都是属于比较有自主能源的东谈主,而且团队还比较小。创业是最幸福的事情,在作念我方最想作念的事情,而且跟一群咱们认为格外优秀,不异对这件事感风趣的东谈主沿途作念这件事情。
赵何娟:你们的投资机构,光速创投的合资东谈主Michael,他说,Pika团队是他见过行能源最快的团队,我不知谈你如何看待这个评价?
郭文景:咱们团队一直比较敬重推行的服从,这可能亦然小团队的一个上风。
赵何娟:咱们再来聊聊趋势。之前我有看到英伟达的科学家说,2022年是影像之年,2023年是声波之年,2024年是视频之年,你如何看这个演化的流程?近几年说视频也都好多年了,为什么说本年是视频之年?
郭文景:视频可能目下天然莫得那么完竣,但是本年一定会有比较大的毒害,因为目下用AI一个作念好的视频,需要在prompting,教唆词上有一些工夫。你可能需要在这方面比较有教授,就能作念比较好的视频。但如果你莫得很有教授,就不成作念出很好的视频。
这是因为目下视频模子还莫得那么熟谙,但咱们认为随即会格外熟谙。本年可能就不错作念出居品,是能够让系数东谈主不需要有好多的教授,就能够作念很好的视频。
赵何娟:接下来也想聊一聊你对通盘AI的行业的一些判断。你如何看待最新的这一波的AI翻新波浪,有莫得可能有更多的契机亦然你感风趣的?除了你目下作念的视频以外,你接下来还有莫得哪些主张?
郭文景:我格外敬佩AI波浪。我知谈好多东谈主可能会认为AI波浪实在有点太火了,或者是有一些过度,有些泡沫。但咱们照旧很敬佩的。岂论说这个热度是否及其,但是工夫确切是有毒害。咱们也敬佩,异日AI一定会转变好多行业,好多的欺诈,包括欺诈的一些使用。这个是无谓置疑的。可能包括视频制作或者说音乐制作,购物方式,AI都会对传统的方式有颠覆。
“别东谈主家的男儿”是如何长成的?赵何娟:你作念这个的事情,你家东谈主如何看呢?
郭文景:我家东谈主还挺赈济我作念任何我想作念的事情的。
赵何娟:Pika创业面貌出来之后,你们公布了融资信息,又发布demo,全球也都格外关注你的家庭布景,都说这是“别东谈主家的男儿”。
是以,从你我方角度来说,你认为家庭的讲明,对你岂论是求知,照旧创业的主张,起到了什么启发或者作用?一个这样优秀的女孩子的成长,一个很好的家庭讲明照旧很进犯的,或者是起到了很至关进犯的作用。
郭文景:我认为我照旧挺红运的,我的通盘成长经验,也挺感德,岂论是对我的浑厚,或者是家里东谈主。因为我从小一直对创意行业比较感风趣,我小学的时候,其实是想作念一个作者,想要追求一些文艺的渴望,包括我家里东谈主,其实其时终点但愿我能走一些文艺的道路。我其时对峙要作念编程这条道路的时候,我还跟我父母大吵了一架。我有姐姐和妹妹,她们是作念的偏这个艺术方面的一些责任。
赵何娟:你小时候那么心爱写稿,什么时候启动又启动对编程感风趣的?是什么触发你倏得对编程感风趣了?
郭文景:我其时终点心爱诗歌。我小时候心爱写稿,心爱看诗歌、散文集。我终点心爱一些比较抽象的诗歌,一些带有隐喻的散文,结构上的遐想上比较奥秘的诗歌和散文。
其时讲和到编程,亦然隧谈认为格外有道理。五六年齿的时候,刚好家里有一册书讲的是LOGO设施谈话,是一个小乌龟画画的一个谈话。其时暑假没事儿干,看了这本书,就学会了这个LOGO谈话。你不错通过编程的方式,去作念一些创作。
设施跟诗歌照旧有一些共通之处的,是需要去遐想的。比如说,结构化的编程,你需要遐想一下,函数如何搞,结构如何搞。但它与诗歌不一样的点是,你临了的输出的这个东西,是不错交互的。
赵何娟:你可能在小学的时候讲和编程是玩儿,但是,在成长的流程之中,比如说,中学之后就要启动想专科标的。你在专科标的选定的时候,为什么莫得选文艺那条路?比如说,去学文体或者是学艺术筹划的,而是王人备走上了这个计较机科学这条路。
郭文景:我其实到初中、高中以后,就从容心爱上了编程。隧谈是个东谈主风趣,莫得料想编程会对我升学有匡助。其时每天要先好好作念功课就启动去编程。编程与文体不一样的有道理的点是,编程确切能作念一些欺诈,一些内容上的全球都能用的一些欺诈。我认为这件事情格外的magical。
大学亦然风趣导向的。我大学本科修的是数学。但是,我同期也与一些博士生沿途,上一些计较机的课。在哈佛修的是数学学位,同期拿了一个计较机的研究生学位。我在哈佛也上了好多东谈主文课。
前两年,我就把计较机和数学的学位拿到了。后头两年,其实我主要都在上东谈主文课,关注文艺的一些事情。
赵何娟:这个也蛮有道理的,岂论是计较机照旧文艺,都是你的风趣。然后,你目下就把这些不同的风趣,通过创业,把它衔尾起来了。
郭文景:这是两个不同标的的风趣。大一时候,我就启动讲和AI。因为其时认为AI像是一种魔法,AI这样神奇,这样powerful。比如说,AI其时能够作念东谈主脸检测之类的,我认为格外不可念念议。对AI也感风趣,对艺术和创作一直都很感风趣,我很难找到一个更让我认为更有道理的事情。
赵何娟:你从哈梵学习,又来到了斯坦福。这两所学校,一个在好意思东,一个在好意思西。你认为这两所大学对你来说,以及你在这两所学校里收成的东西,有什么不一样么?
郭文景:两者不同的话,其实很难说。主如果本科经验和博士经验不是很一样。大学可能会更广一些,更看重一些探索,可能会修不同的规模的课,会相识不同规模的东谈主,但博士可能更偏专科一些。
赵何娟:好意思东的文化和硅谷的文化比拟,各异其实也蛮大的。在你看来,这两所学校的讲明模式、创新,或者与企业界的蚁集的方式,有什么不一样?你会更受益于哪一种?你的创业可能会更受益于哪一种?
卡通色图郭文景:其实挺难对比的。每个学校环境不太一样。可能在哈佛,在好意思东,大部分的一又友都在搞金融,但是,斯坦福会有更多同学对创业感风趣。
斯坦福有好多计较机的课,计较机与其他学科衔尾的课也格外多。哈佛与计较机筹划的,莫得几个课,咱们其时要上一些博士level的课,可能也就二十几个东谈主。甚而,我其时还在MIT上了一节课。
其实计较机筹划的,在哈佛亦然第二大的学位。在哈佛好多学习计较机的东谈主,其后也莫得去作念计较机筹划,好多东谈主去作念股票、计划或者居品司理之类的责任。
赵何娟:斯坦福的创意氛围更浓,斯坦福大学也有好多辍学创业的,都还比较奏效。你的前辈们在硅谷各领风流好几年。过几年,又会有一波新兴的创业少壮起来。这也与硅谷和斯坦福私有的文化有很大的一个干系。
你其时如何就下定决心,决定辍学去创业的?尤其你是从小成绩就很好,是家里的褭褭婷婷,为什么有辍学这个跟你之前的东谈主生可能很不一样的决定?
郭文景:比拟读博来讲,我个东谈主对创业会更感风趣。我其实在哈佛从中间也辍学了一年,再且归读的。我其时大二的时候,在Facebook即是目下Meta全员责任了一年,在AI研究实验室,主如果感风趣。对创业比较感风趣,是因为我认为还能作念一些欺诈。
我比较心爱追求我方爱重的事情。在好意思国,一些本科生辍学照旧挺正常的一件事情。我的红运的点是我的导师。包括我的博士的导师,都终点赈济我。他们在学术上都格外资深,一个是斯坦福东谈主工智能实验室主任,一个是得回了两个奥斯卡奖。我博士的导师,目下是我创业的导师和参谋人。目下我照旧会按期去见他们。
赵何娟:他们如何看待你目下这个创业面貌的?
郭文景:他们格外赈济。我其时跟我一个导师说了这个事情,他随即在电话上径直说赈济我。他说,聪颖的东谈主就应该去作念我方想作念的事情。我认为格外红运,我也格外感德我的导师,他在一些工夫上的学问都会赈济。目下,他照旧会跟咱们进行一周一次的工夫上的指引。我的导师也会认为,欢叫最进犯。
赵何娟:终点感谢Demi,Demi是一个很真实、率真,可儿的密斯。也有好多年青一代的东谈主,看到AI这个大波浪来了。能不成请你给你的同龄东谈主一些标的性的建议,如何把抓到这次契机?
郭文景:也不成说给什么建议,不错共享一下我个东谈主的主张。我认为其实好多时候,照旧要追求我方的内心想作念什么,照旧要追求我方的个东谈主的风趣。全球的东谈主生只须一次,要作念我方爱重的事情,只须作念我方爱重的事情,才能作念得到最佳。
(本文独家首发钛媒体APPhongkongdoll face reveal,作者|李程程,剪辑|马金男)