數據來(lái)源
The GDELT Project is the largest, most comprehensive, and highest resolution open database of human society ever created. Its Event Database archives contain nearly 400M latitude/longitude geographic coordinates spanning over 12,900 days, additionally making it one of the largest open-access spatio-temporal datasets in existance. It truly pushes the boundaries of “big data,” weighing in at over a quarter-billion rows with 59 fields for each record, spanning the geography of the entire planet, and covering a time horizon of more than 35 years. Its Global Knowledge Graph connects the world’s people, organizations, locations, themes, counts, and emotions into a single holistic network over the entire planet.
GDELT項目涵蓋了1979年至今的所有新聞數據,它每日對全球新聞報道進(jìn)行自動(dòng)抓取,并通過(guò)文本分析從不同維度提取信息。 GDELT的所有數據均可免費獲得,鏈接為: http://data.gdeltproject.org/events/index.html
數據組成
通過(guò)上文鏈接可下載zip類(lèi)型的gdelt數據壓縮包,解壓后為csv格式,每個(gè)csv文件內的數據均有58個(gè)字段(2013年3月以前的數據僅有57個(gè)字段,后文會(huì )詳細說(shuō)明),這58個(gè)字段分為EVENTID AND DATE ATTRIBUTES,ACTOR ATTRIBUTES,EVENT ACTION ATTRIBUTES,EVENT GEOGRAPHY,DATA MANAGEMENT FIELDS這五部分。
EVENT AND DATE ATTRIBUTES
這一部分的字段記錄了捕捉事件的全局唯一標識符號碼,事件發(fā)生的日期和日期的不同版本格式,這有助于信息被記錄在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:
GlobalEventID:數據類(lèi)型為整數型,它是一條記錄的唯一標識符,通常它是遞增標識的。
Day:記錄事件發(fā)生的日期,格式為YYYYMMDD
MonthYear:記錄事件發(fā)生的年月,格式為YYYYMM
Year:記錄事件發(fā)生的年份,格式為YYYY
FractionDate:記錄事件發(fā)生的日期,格式為YYYY.FFFF,其中FFFF為到該日期為止在當前年份所占的百分比,通過(guò)公式(MONTH * 30 + DAY) / 365進(jìn)行近似計算。
ACTOR ATTRIBUTES
這一部分字段描述了事件的兩個(gè)參與者的CAMEO碼、名稱(chēng)和特征屬性。在復雜事件或僅有一個(gè)參與者的事件中另一個(gè)參與者的屬性值可能為空,在gdelt系統無(wú)法識別參與者時(shí)參與者屬性也可能為空。每個(gè)參與者的各項屬性在缺省的情況下也會(huì )為空值。所包含的字段有:
Actor1Code:參與者1的CAMEO碼。CAMEO包含一組編碼屬性指示參與者的地理、階級、民族和宗教信仰和他的角色信息(政治精英、軍官、反對派等)。每個(gè)屬性均為3個(gè)字母的縮寫(xiě),以任何可能的順序排列組成CAMEO碼。
Actor1Name:參與者1的名稱(chēng)。對于政治領(lǐng)袖或組織,這將是領(lǐng)導人的正式名稱(chēng)(如喬治·W·布什、聯(lián)合國);地理比賽將是該國或首都/主要城市名稱(chēng)。
Actor1CountryCode:參與者1國家信息的CAMEO碼(3字母縮寫(xiě)),它可能為Actor1Code中的CAMEO碼,也可能為空。它標識了受到該事件影響的地理區域。
Actor1KnownGroupCode:如果參與者1是一個(gè)已知的組織/非政府組織/反叛組織(如聯(lián)合國、世界銀行、基地組織等),該字段將包含其CAMEO碼。
Actor1EthnicCode:如果系統能識別出參與者1的民族信息并且該民族具有CAMEO碼,該字段將包含其CAMEO碼。 注意 :該新增字段仍處于實(shí)驗階段。
Actor1Religion1Code:如果系統能識別出參與者1的宗教信息并且該宗教具有CAMEO碼,該字段將包含其CAMEO碼。 注意 :該新增字段仍處于實(shí)驗階段。
Actor1Religion2Code:如果參與者1包含多重宗教信息,該字段將包含其二級代碼。一些宗教將自動(dòng)使用兩個(gè)代碼,如Catholic將調用Christianity作為第一個(gè)代碼,Catholicism作為第二個(gè)。
Actor1Type1Code:此處的三位CAMEO代碼將指代參與者1的類(lèi)型或角色信息。這可能是一個(gè)特定的角色,如警察、政府、軍隊、政治反對派,反對派等,或是如教育、精英、媒體、難民這樣的廣泛的角色類(lèi)型,或是有組織的團體,例如民間運動(dòng)。特殊的代碼如“溫和的”和“激進(jìn)的”可能指一組的操作策略。
Actor1Type2Code:如果參與者1具有多重角色,此處將包含其CAMEO碼。
Actor1Type3Code:如果參與者1具有多重角色,此處將包含其CAMEO碼。
參與者2將重復以上所有屬性。
EVENT ACTION ATTRIBUTES
這部分字段將包含事件行為(即參與者1對參與者2所做的事)的各類(lèi)屬性,并將提供幾種機制來(lái)評估事件的重要性和其造成的短期影響。
IsRootEvent:此字段標識了該事件在事件流中是否處于根節點(diǎn)位置。
EventCode:此字段通過(guò)CAMEO碼描述了事件參與者1對參與者2的行為。
EventBaseCode:這里是一個(gè)三級分類(lèi)法標識的CAMEO碼。對于第三級的事件,此處包含其二級事件的葉節點(diǎn)。例如編碼“0251”(“Appeal for easing of administrative sanctions”) ,此處即為“025” (“Appeal to yield”)。對于二級事件和一級事件,此處即為其EventCode。
EventRootCode:與上面類(lèi)似,此處標識了事件的根節點(diǎn)。 如“0251” (“Appeal for easing of administrative sanctions”) ,此處即為“02” (“Appeal”)。
QuadClass:這個(gè)字段指定事件類(lèi)型主要分類(lèi),所有事件將被劃分為以下四個(gè)分類(lèi)之一:1=口頭合作,2=物質(zhì)合作,3=口頭沖突,4=物質(zhì)沖突。
GoldsteinScale:每個(gè)事件將被分配一個(gè)在-10到+10之間的數值,用以衡量理論上該事件對國家產(chǎn)生的潛在影響。 注意 :這個(gè)分數的判定是基于事件類(lèi)型而非事件的細節,因此一個(gè)10人參與的暴亂與一個(gè)1000人參與的暴亂都將獲得同樣的分數。
NumMentions:該屬性值為數據庫內所有文章提及該事件的次數。這可以用作評估事件的重要性的方法:討論該事件越多,越有可能是重要的。如果新聞文章發(fā)表之后這個(gè)事件引發(fā)了討論,該字段數值會(huì )進(jìn)行更新(例如,一個(gè)事件在幾周后的可能引發(fā)一個(gè)輿論熱潮,會(huì )有無(wú)數的新聞文章發(fā)表提到原始新聞;在新的發(fā)展背景下,某一事件在一周年時(shí)可能會(huì )有進(jìn)一步的報道)。
NumSources:該屬性值為所有提及該事件的數據源數值。同上一個(gè)屬性一樣,這也可以用作評估事件的重要性的方法。該屬性值也會(huì )在上文相同的情況下進(jìn)行更新。
NumArticles:該屬性值為所有提及該事件的文章數。同上一個(gè)屬性一樣,這也可以用作評估事件的重要性的方法。該屬性值也會(huì )在上文相同的情況下進(jìn)行更新。
AvgTone:該屬性值為所有文章提及該事件時(shí)“語(yǔ)氣”的平均值。分數范圍從-100(極其消極的)到+100(極積極的)。共同的價(jià)值觀(guān)分數范圍在-10和+10之間,0表示中立。這可以用作過(guò)濾事件的“上下文”的方法,從而衡量一個(gè)事件的重要性和其影響。例如,輕微負面語(yǔ)氣的暴亂事件很可能是一個(gè)小事件,而如果是極其負面的語(yǔ)氣,這表明可能是一個(gè)更嚴重的事件。而具有積極分數的暴亂事件則可能表明上下文中正在描述一個(gè)積極的事(如每天攻擊的數量已經(jīng)大大減少了)。
EVENT GEOGRAPHY
這一部分屬性值描述了事件參與者與事件的地理位置信息,包含如下字段:
Actor1Geo_Type:該字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)
Actor1Geo_Fullname:此處為參與者1的完整地理名稱(chēng),格式為“城市/地標,州,國家”。 注意 :同一地點(diǎn)可能具有不同拼寫(xiě)或名稱(chēng),所以該屬性無(wú)法用來(lái)確定唯一的地理信息。利用下面的FeatureID屬性可確定兩個(gè)不同名字的位置指的是同一個(gè)地方。
Actor1Geo_CountryCode:標識參與者1國家地理信息的FIPS10-4國家編碼。
Actor1Geo_ADM1Code:此處為2位FIPS10-4國家編碼和2位FIPS10-4行政區劃1(ADM1)編碼,標識了參與者1的行政區劃地理信息。
Actor1Geo_Lat:參與者1所處地理位置的緯度。
Actor1Geo_Long:參與者1所處地理位置的經(jīng)度。 Actor1Geo_FeatureID. :參與者1地理位置的GNS或GNIS標識,詳細信息請參考 Leetaru(2012)
收藏(1)
GDELT(www.gdeltproject.org)每時(shí)每刻監控著(zhù)每個(gè)國家的幾乎每個(gè)角落的100多種語(yǔ)言的新聞媒體--印刷的、廣播的和web形式的,識別人員、位置、組織、數量、主題、數據源、情緒、報價(jià)、圖片和每秒都在推動(dòng)全球社會(huì )的事件,GDELT為全球提供了一個(gè)自由開(kāi)放的計算平臺。
GDELT2.0每個(gè)15分鐘提供全球事件數據。GDELT目前的事件庫約有3.5億條事件數據。這些事件從1979年1月1日開(kāi)始一直到今日。GDELT第一項服務(wù)就是免費的數據下載。同時(shí)GDELT還在谷歌的BigQuery上提供了數據API,這樣您可以使用谷歌的分析工具進(jìn)行分析。GDELT的數據除了事件數據外,還提供了GKG數據,也就是全球知識圖(Global Knowledge Graph)的數據。在國內您也可以到疙瘩湯(www.gdelt.cn)上下載數據。
在2013年美國國際開(kāi)發(fā)總署 (USAID)和人權聯(lián)合會(huì )舉辦的模型挑戰賽利用GDEL數據作為最后一輪技術(shù)暴行預防挑戰,這個(gè)挑戰要求挑戰者創(chuàng )建一個(gè)算法模型來(lái)預測合適何地將會(huì )發(fā)生 大規模暴行。建百名挑戰者提交了618個(gè)算法,獲勝算法在有限或者沒(méi)有歷史大規模暴亂數據的情況下,每個(gè)區域只考慮23個(gè)地緣、社會(huì )政治和歷史沖突因素, 在區域內暴行預測特別成功。
這個(gè)是由來(lái)自北京的數據科學(xué)家李小石開(kāi)發(fā)的,他在這個(gè)模型里融合了23個(gè)影響因素去做預測,并靠這個(gè)奪得了聯(lián)合國防范暴行高科技競賽的最高獎金,一萬(wàn)倆千 美金。令人難以置信的是,這個(gè)模型可以預測到在一個(gè)從未發(fā)生過(guò)暴亂的額地區將要發(fā)生的嚴重暴亂。這個(gè)模型最大作用不在于節省一個(gè)專(zhuān)家去預測在那些動(dòng)蕩地區 將要發(fā)生的暴亂,比如蘇區和敘利亞地區,而在于預測那些被掉以輕心的事件。這個(gè)算法通常的預測正確率要高于另一個(gè)常用的dummy預測模型62%,而對于 那些在過(guò)去半年內沒(méi)有暴亂的地區,這個(gè)模型的預測準確率卻高于112%。
GDELT提供了分析服務(wù),您需要的查詢(xún)條件輸入到頁(yè)面。選擇好需要的服務(wù)即可在10分鐘內收到含有您需要的數據。利用這些數據即可對其進(jìn)行分析。主要的分析形式有:事件瀏覽器、事件網(wǎng)絡(luò )、事件時(shí)間線(xiàn)、事件熱力圖、GKG網(wǎng)絡(luò )、GKG時(shí)間線(xiàn)、GKG熱力圖、GKG瀏覽等等。
GDELT還提供了四個(gè)解決方案,分別為態(tài)勢感知、影響著(zhù)網(wǎng)絡(luò )、風(fēng)險評估與全球趨勢、政策反響和人權與危機處理等。
<無(wú)標簽>
開(kāi)源中國社區(OSChina.net)是工信部 開(kāi)源軟件推進(jìn)聯(lián)盟 指定的官方社區