第120期 大數(shù)據(jù)應(yīng)用┃用聚類+分類來輔助診斷路口問題

優(yōu)控黑板報

關(guān)鍵詞:大數(shù)據(jù)應(yīng)該 路口匹配系統(tǒng) 聚類分析 分類判定

振業(yè)優(yōu)控研究院大數(shù)據(jù)研究小組的小伙伴們有新的嘗試了!(此處應(yīng)有掌聲)撒花

醫(yī)生平時給病人看病的時候,并不是對每個病例都從零開始思考新的治療方法。當(dāng)醫(yī)生看到一個病人時,會根據(jù)這個病人的幾個重要的癥狀,類比以前看過的病例的特點(diǎn),診斷出病人得了什么疾病,然后在以前類似病例的治療方法的基礎(chǔ)上,給出這個病人的治療方案。

其實(shí)在醫(yī)生的大腦里面,對大量歷史病例按既定特征進(jìn)行歸類,就是用一種“聚類分析”的思想。當(dāng)診斷一個新的病例歸屬到哪一類相似病例的時候,用的正是“分類判定”的技術(shù)。

類比醫(yī)生看病

而我們在各地信號優(yōu)化項(xiàng)目的實(shí)戰(zhàn)中,技術(shù)人員經(jīng)常會發(fā)現(xiàn)當(dāng)前項(xiàng)目與之前某個路口的情況非常類似,這時候技術(shù)人員就會想把這個相似的案例找出來比對。但是問題來了,案例要不就是時間久遠(yuǎn),要不就是數(shù)據(jù)管理不善,根本找不到相關(guān)的記錄了,如果這個時候有個系統(tǒng)能夠自動推薦相似的案例以供參考,那該多好!

而振業(yè)優(yōu)控的交通信號優(yōu)化服務(wù)團(tuán)隊(duì)有多年的項(xiàng)目積累,掌握了超過3600個路口的基礎(chǔ)數(shù)據(jù),為什么不從這些數(shù)據(jù)挖掘出有價值的信息?(ps:我們平時用自主研發(fā)的臺賬系統(tǒng)來收集和整理相關(guān)數(shù)據(jù))。

振業(yè)優(yōu)控研究院大數(shù)據(jù)研究小組深入分析了已掌握的路口基礎(chǔ)數(shù)據(jù),利用聚類的方法,建立了路口匹配與推薦系統(tǒng)。該系統(tǒng)會根據(jù)輸入的路口基本信息,自動分類匹配,從路口庫里查找與之相似的路口推薦給交通工程師,這樣交通工程師最后給出的優(yōu)化方案會更科學(xué),也更有底氣。

圖1 路口匹配的技術(shù)流程

圖1 技術(shù)流程圖

第一步 路口數(shù)據(jù)結(jié)構(gòu)化和清洗補(bǔ)全:將路口臺賬非結(jié)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲,下圖是部分路口臺賬數(shù)據(jù)圖形表達(dá)(VISIO圖),數(shù)據(jù)準(zhǔn)備的工作就是把這些圖像化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),以數(shù)據(jù)表來組織,存放到數(shù)據(jù)庫中。通常通過各種檢測手段得到的數(shù)據(jù)多少會存在錯檢、漏檢、無數(shù)據(jù)的情況,所以在使得前還要對存在問題的數(shù)據(jù)進(jìn)行清洗,對不完整的數(shù)據(jù)進(jìn)行補(bǔ)全。

圖2 路口臺賬數(shù)據(jù)(非結(jié)構(gòu)化)圖2 路口臺賬數(shù)據(jù)(非結(jié)構(gòu)化)

圖3 結(jié)構(gòu)化的路口臺賬數(shù)據(jù)表(部分)

圖3 結(jié)構(gòu)化的路口臺賬數(shù)據(jù)表(部分)

第二步 路口特征提取:在結(jié)構(gòu)化的數(shù)據(jù)中,挑選可以反映路口特征的數(shù)據(jù),整理成路口特征數(shù)據(jù)表。反映路口特征的數(shù)據(jù)有:進(jìn)口數(shù)量、車道轉(zhuǎn)向及數(shù)量、渠化情況、行人過街、燈組、控制方案、流量水平等。

圖4 路口特征表結(jié)構(gòu)(部分字段)圖4 路口特征表結(jié)構(gòu)(部分字段)

第三步,也是最重要的一步。聚類分析:通過聚類算法將路口劃分不同的類型。
首先通過粗聚類的方法,剔除較為特殊的路口(畸形路口),將剩余的路口歸為常規(guī)路口。在常規(guī)路口中,設(shè)計精細(xì)化的聚類算法,進(jìn)行類型劃分(下圖為聚類結(jié)果經(jīng)過MDS降維后在二維空間的投射)可以看出分類效果較好?;谏鲜龅木垲惤Y(jié)果,再在每一個類別的基礎(chǔ)上再進(jìn)行聚類,進(jìn)一步細(xì)化聚類結(jié)果。

圖5 路口聚類結(jié)果圖5 路口聚類結(jié)果

第四步 形成路口庫:整理聚類后的數(shù)據(jù),形成路口庫。

第五步 新路口分類
路口匹配系統(tǒng)以路口的臺帳數(shù)據(jù)作為輸入,系統(tǒng)自動將臺賬數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲,并提取相應(yīng)的特征數(shù)據(jù)。采用集成學(xué)習(xí)的分類算法(boosting),與經(jīng)過聚類形成的路口庫進(jìn)行匹配,找出與之相似的路口,將路口相關(guān)的臺賬、方案、優(yōu)化記錄、優(yōu)化方法等信息推薦給用戶。

圖6 路口匹配與推薦系統(tǒng)實(shí)施
圖6 路口匹配系統(tǒng)實(shí)施

舉個栗子,下圖是是待匹配路口的臺賬(VISIO圖)。經(jīng)過系統(tǒng)運(yùn)算后,找到與之最為相似的三個路口(圖8-10)。由路口VISIO圖可以觀察到,將匹配結(jié)果第一位的廣海大道-同福路交叉口順時針旋轉(zhuǎn)90度,其幾何特征與待匹配路口基本重合,匹配效果較好。結(jié)果二和結(jié)果三也有較高的相似度。

圖7 待匹配路口圖7 待匹配路口

圖8 匹配結(jié)果一圖8 匹配結(jié)果一

圖9 匹配結(jié)果二圖9 匹配結(jié)果二

圖10 匹配結(jié)果三圖10 匹配結(jié)果三

路口匹配與推薦系統(tǒng)是我們團(tuán)隊(duì)對已掌握的路口數(shù)據(jù)的綜合利用案例之一,是大數(shù)據(jù)技術(shù)的一個小應(yīng)用,該應(yīng)用還在進(jìn)一步的完善當(dāng)中。為了保障系統(tǒng)能夠正常運(yùn)行,除了定期更新聚類及分類算法,不斷完善相關(guān)的程序之外,我們還對數(shù)據(jù)的采集、整理、存儲等階段設(shè)計了規(guī)范化的操作流程,以保證數(shù)據(jù)獲取的可持續(xù)性、數(shù)據(jù)的多樣性和數(shù)據(jù)的質(zhì)量。

大數(shù)據(jù)的真正含義不在“大”,而在“有用”,把數(shù)據(jù)變得有價值一直是我們團(tuán)隊(duì)努力的方向。