關鍵詞:大數(shù)據應該 路口匹配系統(tǒng) 聚類分析 分類判定
振業(yè)優(yōu)控研究院大數(shù)據研究小組的小伙伴們有新的嘗試了!(此處應有掌聲)
醫(yī)生平時給病人看病的時候,并不是對每個病例都從零開始思考新的治療方法。當醫(yī)生看到一個病人時,會根據這個病人的幾個重要的癥狀,類比以前看過的病例的特點,診斷出病人得了什么疾病,然后在以前類似病例的治療方法的基礎上,給出這個病人的治療方案。
其實在醫(yī)生的大腦里面,對大量歷史病例按既定特征進行歸類,就是用一種“聚類分析”的思想。當診斷一個新的病例歸屬到哪一類相似病例的時候,用的正是“分類判定”的技術。
而我們在各地信號優(yōu)化項目的實戰(zhàn)中,技術人員經常會發(fā)現(xiàn)當前項目與之前某個路口的情況非常類似,這時候技術人員就會想把這個相似的案例找出來比對。但是問題來了,案例要不就是時間久遠,要不就是數(shù)據管理不善,根本找不到相關的記錄了,如果這個時候有個系統(tǒng)能夠自動推薦相似的案例以供參考,那該多好!
而振業(yè)優(yōu)控的交通信號優(yōu)化服務團隊有多年的項目積累,掌握了超過3600個路口的基礎數(shù)據,為什么不從這些數(shù)據挖掘出有價值的信息?(ps:我們平時用自主研發(fā)的臺賬系統(tǒng)來收集和整理相關數(shù)據)。
振業(yè)優(yōu)控研究院大數(shù)據研究小組深入分析了已掌握的路口基礎數(shù)據,利用聚類的方法,建立了路口匹配與推薦系統(tǒng)。該系統(tǒng)會根據輸入的路口基本信息,自動分類匹配,從路口庫里查找與之相似的路口推薦給交通工程師,這樣交通工程師最后給出的優(yōu)化方案會更科學,也更有底氣。
圖1 技術流程圖
第一步 路口數(shù)據結構化和清洗補全:將路口臺賬非結化數(shù)據進行結構化存儲,下圖是部分路口臺賬數(shù)據圖形表達(VISIO圖),數(shù)據準備的工作就是把這些圖像化的數(shù)據轉換成結構化的數(shù)據,以數(shù)據表來組織,存放到數(shù)據庫中。通常通過各種檢測手段得到的數(shù)據多少會存在錯檢、漏檢、無數(shù)據的情況,所以在使得前還要對存在問題的數(shù)據進行清洗,對不完整的數(shù)據進行補全。
圖2 路口臺賬數(shù)據(非結構化)
圖3 結構化的路口臺賬數(shù)據表(部分)
第二步 路口特征提取:在結構化的數(shù)據中,挑選可以反映路口特征的數(shù)據,整理成路口特征數(shù)據表。反映路口特征的數(shù)據有:進口數(shù)量、車道轉向及數(shù)量、渠化情況、行人過街、燈組、控制方案、流量水平等。
圖4 路口特征表結構(部分字段)
第三步,也是最重要的一步。聚類分析:通過聚類算法將路口劃分不同的類型。
首先通過粗聚類的方法,剔除較為特殊的路口(畸形路口),將剩余的路口歸為常規(guī)路口。在常規(guī)路口中,設計精細化的聚類算法,進行類型劃分(下圖為聚類結果經過MDS降維后在二維空間的投射)可以看出分類效果較好?;谏鲜龅木垲惤Y果,再在每一個類別的基礎上再進行聚類,進一步細化聚類結果。
圖5 路口聚類結果
第四步 形成路口庫:整理聚類后的數(shù)據,形成路口庫。
第五步 新路口分類
路口匹配系統(tǒng)以路口的臺帳數(shù)據作為輸入,系統(tǒng)自動將臺賬數(shù)據進行結構化存儲,并提取相應的特征數(shù)據。采用集成學習的分類算法(boosting),與經過聚類形成的路口庫進行匹配,找出與之相似的路口,將路口相關的臺賬、方案、優(yōu)化記錄、優(yōu)化方法等信息推薦給用戶。
圖6 路口匹配系統(tǒng)實施
舉個栗子,下圖是是待匹配路口的臺賬(VISIO圖)。經過系統(tǒng)運算后,找到與之最為相似的三個路口(圖8-10)。由路口VISIO圖可以觀察到,將匹配結果第一位的廣海大道-同福路交叉口順時針旋轉90度,其幾何特征與待匹配路口基本重合,匹配效果較好。結果二和結果三也有較高的相似度。
圖7 待匹配路口
圖8 匹配結果一
圖9 匹配結果二
圖10 匹配結果三
路口匹配與推薦系統(tǒng)是我們團隊對已掌握的路口數(shù)據的綜合利用案例之一,是大數(shù)據技術的一個小應用,該應用還在進一步的完善當中。為了保障系統(tǒng)能夠正常運行,除了定期更新聚類及分類算法,不斷完善相關的程序之外,我們還對數(shù)據的采集、整理、存儲等階段設計了規(guī)范化的操作流程,以保證數(shù)據獲取的可持續(xù)性、數(shù)據的多樣性和數(shù)據的質量。
大數(shù)據的真正含義不在“大”,而在“有用”,把數(shù)據變得有價值一直是我們團隊努力的方向。