《哪吒》票房超《流浪地球》！必火無(wú)疑

《哪吒》上映已經(jīng)一個(gè)多月，這樣一部國(guó)產(chǎn)動(dòng)畫(huà)電影的火爆程度超出了很多人的預(yù)料。

8月7日，貓眼預(yù)測(cè)，《哪吒》總票房會(huì)達(dá)到46.8億，超過(guò)《流浪地球》。二十多天后的8月31日，貓眼數(shù)據(jù)顯示，《哪吒》票房正式超過(guò)《流浪地球》，成為中國(guó)影史票房排名第二的電影。

在《哪吒》刷屏的背后，很多人也會(huì)產(chǎn)生疑問(wèn)：票房預(yù)測(cè)的基本原理是什么？對(duì)此，騰訊科技聯(lián)合知乎平臺(tái)，并采訪貓眼數(shù)據(jù)專家，揭秘票房預(yù)測(cè)背后的黑盒子。

據(jù)知乎答主“DataHunter”介紹，目針對(duì)電影票房的預(yù)測(cè)主要有以下三種思路：

第一種思路可以形象的理解為“照貓畫(huà)虎”，其原理在于：目前市場(chǎng)上已經(jīng)上映了大量的影片，并積累了海量的票房變動(dòng)數(shù)據(jù)，深度神經(jīng)網(wǎng)絡(luò)模型可以依據(jù)某一部影片的大量用戶行為數(shù)據(jù)，在定檔影片上映前一個(gè)月就可以給出該片的首日票房預(yù)測(cè)。

同時(shí)，系統(tǒng)自動(dòng)篩選出與之最相似的電影，描繪出待映電影的未來(lái)票房走勢(shì)圖，進(jìn)而預(yù)測(cè)出這部影片在上映期間的每日票房以及最終的總票房。

谷歌所采用的預(yù)測(cè)模型只選取了三種維度：電影預(yù)告片的搜索量、同系列電影前幾部的票房表現(xiàn)、檔期的季節(jié)性特征，最終獲得94%的預(yù)測(cè)準(zhǔn)確率。

這種方式的優(yōu)點(diǎn)在于簡(jiǎn)單直接，更接近傳統(tǒng)大數(shù)據(jù)分析“只反映趨勢(shì)，不深究因果”的理念，上映時(shí)間越長(zhǎng)，其預(yù)測(cè)的數(shù)據(jù)就越為精準(zhǔn)，往往適用于掌握了大量票房數(shù)據(jù)的企業(yè)。但缺點(diǎn)在于，其無(wú)法將電影上映過(guò)程中眾多的復(fù)雜因素考慮進(jìn)來(lái)，所以經(jīng)常會(huì)出現(xiàn)預(yù)測(cè)波動(dòng)大、與實(shí)際偏離值較高等缺陷。

第二種思路則較為復(fù)雜，而且會(huì)將更多的因子納入到考量因素中來(lái)。其先根據(jù)歷史票房變化預(yù)測(cè)出某一個(gè)檔期的總票房，然后根據(jù)社交媒體討論數(shù)量、不同導(dǎo)演與演員的歷史電影質(zhì)量、點(diǎn)映用戶的評(píng)價(jià)、票房情況、SEO情況等預(yù)測(cè)出各電影票房占比，之后綜合預(yù)測(cè)出各電影的實(shí)際票房。

這種方式優(yōu)點(diǎn)在于更多的將“電影評(píng)價(jià)”這一個(gè)重要因子納入到考量范圍內(nèi)，通過(guò)電影導(dǎo)演表現(xiàn)、上映前反饋等等因素來(lái)判斷出電影的流行趨勢(shì)，因此預(yù)測(cè)精準(zhǔn)性方面有更好的效果。

第三種思路則綜合了大數(shù)據(jù)分析與人工決策，即先使用大數(shù)據(jù)分析來(lái)對(duì)于影片的票房進(jìn)行一個(gè)事先的預(yù)測(cè)，并輸出可視化的數(shù)據(jù)圖表。

與此同時(shí)，專家會(huì)對(duì)具體的電影進(jìn)行分析，找出其潛在的爆點(diǎn)或是隱患，并評(píng)估其可能帶來(lái)的影響，并以加權(quán)的方式納入到模型之中進(jìn)行修正。這種方式在預(yù)測(cè)爆品方面有更好的表現(xiàn)。

在和貓眼的對(duì)話中，騰訊科技了解到，貓眼有一套比較完整的票房預(yù)測(cè)工具，包括實(shí)時(shí)票房（含未來(lái)預(yù)售票房）、天級(jí)票房預(yù)測(cè)（未來(lái)3天每日大盤(pán)票房預(yù)測(cè)）和總票房預(yù)測(cè)（單片總票房）等算法，由于貓眼的大數(shù)據(jù)優(yōu)勢(shì)（積累了多年的實(shí)時(shí)票房詳細(xì)數(shù)據(jù)、電影天級(jí)票房和總票房樣本、以及貓眼平臺(tái)的交易數(shù)據(jù)），這些算法可以達(dá)到非常好的預(yù)測(cè)效果，如實(shí)時(shí)票房準(zhǔn)確度度可以達(dá)到99%以上，次日天級(jí)票房預(yù)測(cè)準(zhǔn)確度可以達(dá)到90%左右。

此外，除了算法工具，貓眼也有票房預(yù)測(cè)的專家，會(huì)根據(jù)經(jīng)驗(yàn)提供一些建議，對(duì)算法產(chǎn)出的數(shù)據(jù)會(huì)做一定的審核和校對(duì)，但總體上以算法產(chǎn)出為主，人的干預(yù)比例很小。

這套算法的基本邏輯就是：根據(jù)相似電影的票房規(guī)律預(yù)測(cè)新電影的票房，相似電影的選取會(huì)有若干條件（如類型、評(píng)分、所處檔期、票房體量、近期走勢(shì)等），然后基于這些相似電影，構(gòu)建預(yù)測(cè)天級(jí)票房或總票房的機(jī)器學(xué)習(xí)模型。

以預(yù)測(cè)《哪吒》票房為例，貓眼在前期參考其類型、評(píng)分因素，以《大圣歸來(lái)》為參考影片，后期《哪吒》的票房走勢(shì)出來(lái)后，貓眼發(fā)現(xiàn)他與《戰(zhàn)狼2》的走勢(shì)相像，參考《戰(zhàn)狼2》的走勢(shì)調(diào)整接下來(lái)的票房預(yù)測(cè)。在《哪吒》上映期間，根據(jù)多部上映影片的表現(xiàn)情況實(shí)時(shí)調(diào)整其預(yù)測(cè)票房。

在國(guó)外，谷歌也有一套自己的算法預(yù)測(cè)模型。谷歌的算法模型主要利用搜索、廣告點(diǎn)擊數(shù)據(jù)以及院線排片來(lái)預(yù)測(cè)票房。2013年，谷歌就宣布其模型預(yù)測(cè)票房與真實(shí)票房的吻合程度達(dá)到了94%。

與此同時(shí)，谷歌通過(guò)分析自身的數(shù)據(jù)還發(fā)現(xiàn)，在上映前四周時(shí)，大部分電影的預(yù)告片都是這個(gè)時(shí)間發(fā)布并開(kāi)始密集的投放廣告，因此，這個(gè)階段的用戶搜索信息與票房的相關(guān)性會(huì)更加緊密。

DataHunter也提到了算法大數(shù)據(jù)預(yù)測(cè)票房的難點(diǎn)所在：很多大數(shù)據(jù)分析工具并不考慮因果性，只考慮相關(guān)性，經(jīng)常會(huì)帶來(lái)“虛假相關(guān)”的問(wèn)題，也就是無(wú)法對(duì)于數(shù)據(jù)變化的真正原因進(jìn)行歸因。在大多數(shù)場(chǎng)景下，這樣的預(yù)測(cè)并沒(méi)有什么問(wèn)題，但是在特定的場(chǎng)景下，偏離預(yù)測(cè)的情況仍有可能會(huì)發(fā)生。

此外不成熟的市場(chǎng)環(huán)境，以及潛在的風(fēng)險(xiǎn)因素，也會(huì)對(duì)票房預(yù)測(cè)產(chǎn)生關(guān)鍵影響。比如影片檔期選擇、宣發(fā)策略的一招失誤，就可能導(dǎo)致整個(gè)影片的票房成幾倍的誤差。而某個(gè)關(guān)鍵演員的負(fù)面新聞也同樣會(huì)帶來(lái)不可預(yù)期的影響，例如某位主演丑聞，導(dǎo)致《情圣2》撤檔。

因此，這又引出了下一個(gè)問(wèn)題：如何提高算法預(yù)測(cè)的準(zhǔn)確性？

DataHunter認(rèn)為，大數(shù)據(jù)分析與人工決策相結(jié)合的方式，其核心原理就是利用人工思維的主觀能動(dòng)性與創(chuàng)造性，發(fā)掘電影票房中潛在、但關(guān)鍵的影響因子，最終來(lái)得出結(jié)論。

對(duì)此，貓眼提出的解決方案是：目前算法都是實(shí)時(shí)訓(xùn)練和預(yù)測(cè)的，就是針對(duì)一個(gè)新的待預(yù)測(cè)電影，實(shí)時(shí)選取相似電影，并訓(xùn)練模型以及預(yù)測(cè)，模型的超參數(shù)是提前訓(xùn)練好的，短期不會(huì)變化，算法的精度隨著樣本的積累或越來(lái)越好。當(dāng)新樣本積累到一定程度，貓眼會(huì)對(duì)模型重新優(yōu)化（模型的選擇，超參數(shù)的優(yōu)化）。