12月1號消息,本周二,一篇名為“Predicting the flu from Instagram”(通過Instagram預測流感)的論文在康奈爾大學arXiv服務器上發(fā)布,作者是來自芬蘭坦佩爾大學醫(yī)學院的Oguzhan Gencoglu和軟件服務公司Tieto,Ltd的Miikka Ermes。
芬蘭的AI研究人員利用公共健康數(shù)據(jù)嚴格收集了這個國家的500萬居民,在Instagram上比對“流感”標簽,以及人們提出流感藥物的圖像,發(fā)帖與記錄的流感爆發(fā)有顯著的統(tǒng)計相關性,預測流感爆發(fā)的歷史公共衛(wèi)生數(shù)據(jù)。這是利用社交媒體衡量人口和健康趨勢的一系列嘗試中的最新舉措。
作者提出他們的論點是“首項在社交媒體中使用圖像來預測流感流行病的研究”,但他們也列出了關于社交媒體的其他研究,例如關于抑郁癥指標的Instagram帖子研究和煙草使用。
對于很多人關注的隱私問題,他們稱只使用公開發(fā)布過的,基于python的網(wǎng)絡爬蟲程序收集數(shù)據(jù),并且爬蟲只記錄了發(fā)布日期和主題標簽,以及單個圖像URL,它沒有記錄用戶名,也沒有存儲任何圖像。
從2012年4月到2018年5月,調(diào)查人員在Instagram上收集了六年的帖子,超過22,000份,收集芬蘭語中有關疾病的標簽,例如芬蘭語“flunssa”,意思是流感,或“lihaskipu”,意思是肌肉酸痛。對Gencoglu和Miikka這項研究來說,重要的是他們能夠將搜索限制在“單一語言和國家”,以便能夠將帖子與單個國家的健康數(shù)據(jù)進行比較。
Gencoglu和Miikka通過將帖子中的標簽參考數(shù)量,與芬蘭國家健康與福利研究所記錄的官方流感發(fā)病率相關聯(lián),歸類了9種不同的神經(jīng)網(wǎng)絡模型。他們對五年的數(shù)據(jù)進行了統(tǒng)計,然后用第六年的Instagram數(shù)據(jù)和健康數(shù)據(jù)來測試模型。
論文稱,最好的臨近預報模型的平均絕對誤差為每周11.33次事故,測試數(shù)據(jù)的相關系數(shù)為0.963。用于預測1周和2周的預測模型顯示出統(tǒng)計顯著性,同時達到相關系數(shù)分別為0.903和0.862。這項研究表明社交媒體,特別是數(shù)字照片的公開分享,可以成為流行病學領域的寶貴信息來源。
這種社交媒體搜索的一個重要問題是,如何通過媒體本身來改變統(tǒng)計數(shù)據(jù)。作者指出谷歌2013年“谷歌流感”搜索趨勢失敗,因為“媒體對谷歌工作的高度關注”歪曲了搜索活動。因此,他們得出結論,在未來的工作中,將每周帖子數(shù)量“標準化”與人口中每周Instagram帖子的總數(shù)相比,通過考慮平臺的受歡迎程度來提高預測性能。