《哪吒》上映已經(jīng)一個(gè)多月,這樣一部國(guó)產(chǎn)動(dòng)畫(huà)電影的火爆程度超出了很多人的預(yù)料。
8月7日,貓眼預(yù)測(cè),《哪吒》總票房會(huì)達(dá)到46.8億,超過(guò)《流浪地球》。二十多天后的8月31日,貓眼數(shù)據(jù)顯示,《哪吒》票房正式超過(guò)《流浪地球》,成為中國(guó)影史票房排名第二的電影。
在《哪吒》刷屏的背后,很多人也會(huì)產(chǎn)生疑問(wèn):票房預(yù)測(cè)的基本原理是什么?對(duì)此,騰訊科技聯(lián)合知乎平臺(tái),并采訪貓眼數(shù)據(jù)專家,揭秘票房預(yù)測(cè)背后的黑盒子。
據(jù)知乎答主“DataHunter”介紹,目針對(duì)電影票房的預(yù)測(cè)主要有以下三種思路:
第一種思路可以形象的理解為“照貓畫(huà)虎”,其原理在于:目前市場(chǎng)上已經(jīng)上映了大量的影片,并積累了海量的票房變動(dòng)數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)模型可以依據(jù)某一部影片的大量用戶行為數(shù)據(jù),在定檔影片上映前一個(gè)月就可以給出該片的首日票房預(yù)測(cè)。
同時(shí),系統(tǒng)自動(dòng)篩選出與之最相似的電影,描繪出待映電影的未來(lái)票房走勢(shì)圖,進(jìn)而預(yù)測(cè)出這部影片在上映期間的每日票房以及最終的總票房。
谷歌所采用的預(yù)測(cè)模型只選取了三種維度:電影預(yù)告片的搜索量、同系列電影前幾部的票房表現(xiàn)、檔期的季節(jié)性特征,最終獲得94%的預(yù)測(cè)準(zhǔn)確率。
這種方式的優(yōu)點(diǎn)在于簡(jiǎn)單直接,更接近傳統(tǒng)大數(shù)據(jù)分析“只反映趨勢(shì),不深究因果”的理念,上映時(shí)間越長(zhǎng),其預(yù)測(cè)的數(shù)據(jù)就越為精準(zhǔn),往往適用于掌握了大量票房數(shù)據(jù)的企業(yè)。但缺點(diǎn)在于,其無(wú)法將電影上映過(guò)程中眾多的復(fù)雜因素考慮進(jìn)來(lái),所以經(jīng)常會(huì)出現(xiàn)預(yù)測(cè)波動(dòng)大、與實(shí)際偏離值較高等缺陷。
第二種思路則較為復(fù)雜,而且會(huì)將更多的因子納入到考量因素中來(lái)。其先根據(jù)歷史票房變化預(yù)測(cè)出某一個(gè)檔期的總票房,然后根據(jù)社交媒體討論數(shù)量、不同導(dǎo)演與演員的歷史電影質(zhì)量、點(diǎn)映用戶的評(píng)價(jià)、票房情況、SEO情況等預(yù)測(cè)出各電影票房占比,之后綜合預(yù)測(cè)出各電影的實(shí)際票房。
這種方式優(yōu)點(diǎn)在于更多的將“電影評(píng)價(jià)”這一個(gè)重要因子納入到考量范圍內(nèi),通過(guò)電影導(dǎo)演表現(xiàn)、上映前反饋等等因素來(lái)判斷出電影的流行趨勢(shì),因此預(yù)測(cè)精準(zhǔn)性方面有更好的效果。
第三種思路則綜合了大數(shù)據(jù)分析與人工決策,即先使用大數(shù)據(jù)分析來(lái)對(duì)于影片的票房進(jìn)行一個(gè)事先的預(yù)測(cè),并輸出可視化的數(shù)據(jù)圖表。
與此同時(shí),專家會(huì)對(duì)具體的電影進(jìn)行分析,找出其潛在的爆點(diǎn)或是隱患,并評(píng)估其可能帶來(lái)的影響,并以加權(quán)的方式納入到模型之中進(jìn)行修正。這種方式在預(yù)測(cè)爆品方面有更好的表現(xiàn)。
在和貓眼的對(duì)話中,騰訊科技了解到,貓眼有一套比較完整的票房預(yù)測(cè)工具,包括實(shí)時(shí)票房(含未來(lái)預(yù)售票房)、天級(jí)票房預(yù)測(cè)(未來(lái)3天每日大盤(pán)票房預(yù)測(cè))和總票房預(yù)測(cè)(單片總票房)等算法,由于貓眼的大數(shù)據(jù)優(yōu)勢(shì)(積累了多年的實(shí)時(shí)票房詳細(xì)數(shù)據(jù)、電影天級(jí)票房和總票房樣本、以及貓眼平臺(tái)的交易數(shù)據(jù)),這些算法可以達(dá)到非常好的預(yù)測(cè)效果,如實(shí)時(shí)票房準(zhǔn)確度度可以達(dá)到99%以上,次日天級(jí)票房預(yù)測(cè)準(zhǔn)確度可以達(dá)到90%左右。
此外,除了算法工具,貓眼也有票房預(yù)測(cè)的專家,會(huì)根據(jù)經(jīng)驗(yàn)提供一些建議,對(duì)算法產(chǎn)出的數(shù)據(jù)會(huì)做一定的審核和校對(duì),但總體上以算法產(chǎn)出為主,人的干預(yù)比例很小。
這套算法的基本邏輯就是:根據(jù)相似電影的票房規(guī)律預(yù)測(cè)新電影的票房,相似電影的選取會(huì)有若干條件(如類型、評(píng)分、所處檔期、票房體量、近期走勢(shì)等),然后基于這些相似電影,構(gòu)建預(yù)測(cè)天級(jí)票房或總票房的機(jī)器學(xué)習(xí)模型。
以預(yù)測(cè)《哪吒》票房為例,貓眼在前期參考其類型、評(píng)分因素,以《大圣歸來(lái)》為參考影片,后期《哪吒》的票房走勢(shì)出來(lái)后,貓眼發(fā)現(xiàn)他與《戰(zhàn)狼2》的走勢(shì)相像,參考《戰(zhàn)狼2》的走勢(shì)調(diào)整接下來(lái)的票房預(yù)測(cè)。在《哪吒》上映期間,根據(jù)多部上映影片的表現(xiàn)情況實(shí)時(shí)調(diào)整其預(yù)測(cè)票房。
在國(guó)外,谷歌也有一套自己的算法預(yù)測(cè)模型。谷歌的算法模型主要利用搜索、廣告點(diǎn)擊數(shù)據(jù)以及院線排片來(lái)預(yù)測(cè)票房。2013年,谷歌就宣布其模型預(yù)測(cè)票房與真實(shí)票房的吻合程度達(dá)到了94%。
與此同時(shí),谷歌通過(guò)分析自身的數(shù)據(jù)還發(fā)現(xiàn),在上映前四周時(shí),大部分電影的預(yù)告片都是這個(gè)時(shí)間發(fā)布并開(kāi)始密集的投放廣告,因此,這個(gè)階段的用戶搜索信息與票房的相關(guān)性會(huì)更加緊密。
DataHunter也提到了算法大數(shù)據(jù)預(yù)測(cè)票房的難點(diǎn)所在:很多大數(shù)據(jù)分析工具并不考慮因果性,只考慮相關(guān)性,經(jīng)常會(huì)帶來(lái)“虛假相關(guān)”的問(wèn)題,也就是無(wú)法對(duì)于數(shù)據(jù)變化的真正原因進(jìn)行歸因。在大多數(shù)場(chǎng)景下,這樣的預(yù)測(cè)并沒(méi)有什么問(wèn)題,但是在特定的場(chǎng)景下,偏離預(yù)測(cè)的情況仍有可能會(huì)發(fā)生。
此外不成熟的市場(chǎng)環(huán)境,以及潛在的風(fēng)險(xiǎn)因素,也會(huì)對(duì)票房預(yù)測(cè)產(chǎn)生關(guān)鍵影響。比如影片檔期選擇、宣發(fā)策略的一招失誤,就可能導(dǎo)致整個(gè)影片的票房成幾倍的誤差。而某個(gè)關(guān)鍵演員的負(fù)面新聞也同樣會(huì)帶來(lái)不可預(yù)期的影響,例如某位主演丑聞,導(dǎo)致《情圣2》撤檔。
因此,這又引出了下一個(gè)問(wèn)題:如何提高算法預(yù)測(cè)的準(zhǔn)確性?
DataHunter認(rèn)為,大數(shù)據(jù)分析與人工決策相結(jié)合的方式,其核心原理就是利用人工思維的主觀能動(dòng)性與創(chuàng)造性,發(fā)掘電影票房中潛在、但關(guān)鍵的影響因子,最終來(lái)得出結(jié)論。
對(duì)此,貓眼提出的解決方案是:目前算法都是實(shí)時(shí)訓(xùn)練和預(yù)測(cè)的,就是針對(duì)一個(gè)新的待預(yù)測(cè)電影,實(shí)時(shí)選取相似電影,并訓(xùn)練模型以及預(yù)測(cè),模型的超參數(shù)是提前訓(xùn)練好的,短期不會(huì)變化,算法的精度隨著樣本的積累或越來(lái)越好。當(dāng)新樣本積累到一定程度,貓眼會(huì)對(duì)模型重新優(yōu)化(模型的選擇,超參數(shù)的優(yōu)化)。