簡(jiǎn)析基于大數(shù)據(jù)平臺(tái)的動(dòng)態(tài)票額智能預(yù)分系統(tǒng)的研究與實(shí)現(xiàn)論文
從2011年起,鐵路在全路實(shí)行旅客列車票額智能預(yù)分,采用客流預(yù)測(cè)方法生成列車席位預(yù)分方案,達(dá)到了票額管理合理化、科學(xué)化、趟車效益增加,并且自預(yù)售之日起,保證始發(fā)長(zhǎng)途票額分配合理,兼顧沿途需求,保障中間站的旅客發(fā)送,充分提高了中間站組織客流的積極性。為各鐵路局客運(yùn)組織實(shí)現(xiàn)挖潛提效、精細(xì)化管理起到關(guān)鍵作用作用。隨著參與預(yù)分的列車不斷增多,動(dòng)車組列車購票習(xí)慣的變化,現(xiàn)有的預(yù)分方法和實(shí)現(xiàn)機(jī)制也存在以下問題:
(1)鐵路列車近年來調(diào)圖頻繁,車次急劇增加,并且預(yù)售期延長(zhǎng),由調(diào)圖帶來的停站方案、開點(diǎn)變更、編組調(diào)整變化較大,導(dǎo)致預(yù)測(cè)計(jì)算量巨大,系統(tǒng)負(fù)載較重。
(2)以往的票額預(yù)分為預(yù)售期外一次預(yù)測(cè)并預(yù)分,預(yù)售期內(nèi)調(diào)整完全依據(jù)人工調(diào)整,不容易及時(shí)發(fā)現(xiàn)問題,票額調(diào)整工作被動(dòng),且臨近開車期間銷售情況難以掌握。
因此,有必要針對(duì)參考期內(nèi)席位售出情況和預(yù)售期內(nèi)余票概貌等情況進(jìn)行動(dòng)態(tài)監(jiān)測(cè),研究票額動(dòng)態(tài)預(yù)分的方法,并對(duì)預(yù)測(cè)數(shù)據(jù)、調(diào)整依據(jù)的計(jì)算進(jìn)行基礎(chǔ)架構(gòu)改造,適應(yīng)海量數(shù)據(jù)變化的需要。
1鐵路客票大數(shù)據(jù)平臺(tái)的研究與實(shí)現(xiàn)
隨著客運(yùn)歷史數(shù)據(jù)的累積,以及全國鐵路客運(yùn)規(guī)模的快速擴(kuò)展,全國鐵路客票歷史數(shù)據(jù)規(guī)模越來越大,數(shù)據(jù)種類也越來越多,僅僅依靠關(guān)系型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的管理和操作,已經(jīng)不能滿足需要。因此,以客運(yùn)營(yíng)銷數(shù)據(jù)為基礎(chǔ),結(jié)合由客票生產(chǎn)系統(tǒng)產(chǎn)生的實(shí)時(shí)數(shù)據(jù),采用開源分布式數(shù)據(jù)庫構(gòu)建大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)鐵路客票大數(shù)據(jù)平臺(tái)的研究具有重要意義。
1.1Hadoop分布式并行處理
Hadoop是近年來炙手可熱的開源分布式并行處理框架,用戶可忽略對(duì)底層并行實(shí)現(xiàn)的細(xì)節(jié)高效的構(gòu)建出并行的分布式程序。Hadoop主要包括2個(gè)組件:(1)與GFS類似的分布式文件系統(tǒng),簡(jiǎn)稱HDFS;(2)并行計(jì)算模型MapReduce,由JobTracker、TaskTracker等組件組成。
Hadoop的工作原理是將數(shù)據(jù)拆成片,并將每個(gè)“分片”分配到特定的集群節(jié)點(diǎn)上進(jìn)行分析,每個(gè)數(shù)據(jù)分片都是在獨(dú)立的集群節(jié)點(diǎn)上進(jìn)行單獨(dú)處理的,因此非常適合處理大數(shù)據(jù)量、非結(jié)構(gòu)化數(shù)據(jù)。Hadoop集群的另一個(gè)特點(diǎn)是具有較好的可擴(kuò)展性,隨著數(shù)據(jù)量的增加,集群的處理能力將會(huì)受到影響,可通過添加額外的集群節(jié)點(diǎn)有效地?cái)U(kuò)充集群以解決問題。Hadoop集群的并行處理能力可顯著提高計(jì)算效率,能達(dá)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理的時(shí)效性。此外,Hadoop所需軟件為開源軟件,并能夠很好的支持商用硬件從而客運(yùn)很好的控制成本,此外,Hadoop集群還具有故障容錯(cuò)的優(yōu)點(diǎn),當(dāng)一個(gè)數(shù)據(jù)分片發(fā)送到某個(gè)節(jié)點(diǎn)進(jìn)行計(jì)算時(shí),該數(shù)據(jù)在集群其他節(jié)點(diǎn)上會(huì)保留副本,即使一個(gè)節(jié)點(diǎn)發(fā)生故障,該策略也能保證該節(jié)點(diǎn)數(shù)據(jù)的副本數(shù)據(jù)正常處理。
1.2鐵路客票大數(shù)據(jù)平臺(tái)數(shù)據(jù)源
鐵路客票大數(shù)據(jù)平臺(tái)主要來源于歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)兩類。歷史數(shù)據(jù)包括互聯(lián)網(wǎng)訂票數(shù)據(jù)、運(yùn)能數(shù)據(jù)以及售票、退票、廢票和改簽數(shù)據(jù)?推毕到y(tǒng)實(shí)時(shí)數(shù)據(jù)包括實(shí)時(shí)余票數(shù)據(jù)、實(shí)時(shí)存量數(shù)據(jù)以及取票軌跡數(shù)據(jù)。其中,實(shí)時(shí)余票數(shù)據(jù)從互聯(lián)網(wǎng)售票的余票查詢集群獲得,實(shí)時(shí)存量數(shù)據(jù)和取票軌跡數(shù)據(jù)從鐵路局中心的客票系統(tǒng)獲得。
客票歷史數(shù)據(jù)和客票系統(tǒng)實(shí)時(shí)數(shù)據(jù)通過ETL服務(wù),進(jìn)入鐵路總公司營(yíng)銷數(shù)據(jù)倉庫,通過數(shù)據(jù)建模組成數(shù)據(jù)集市提供報(bào)表、查詢應(yīng)用等服務(wù);同時(shí)上述數(shù)據(jù)也進(jìn)入Hadoop平臺(tái)的HDFS,數(shù)據(jù)提供Hbase和Hive兩種訪問方式。
在票額預(yù)分應(yīng)用服務(wù)層中,由客流預(yù)測(cè)應(yīng)用服務(wù)器從Hbase中提取預(yù)測(cè)需要的樣本數(shù)據(jù),應(yīng)用MapReduce實(shí)現(xiàn)客流預(yù)測(cè)算法,以實(shí)現(xiàn)客流預(yù)測(cè)結(jié)果。
客流預(yù)測(cè)結(jié)果通過鐵路總公司客票系統(tǒng)服務(wù)器實(shí)現(xiàn)往18個(gè)鐵路局(公司)分發(fā)。各鐵路局客票系統(tǒng)服務(wù)器上部署預(yù)測(cè)執(zhí)行子系統(tǒng),將預(yù)測(cè)結(jié)果與席位實(shí)時(shí)存量數(shù)據(jù)結(jié)合生成預(yù)分方案,對(duì)鐵路局中心席位庫進(jìn)行預(yù)分操作。
2基于客票大數(shù)據(jù)平臺(tái)的票額預(yù)分系統(tǒng)
各鐵路局售票歷史數(shù)據(jù)通過傳輸軟件進(jìn)入鐵路總公司營(yíng)銷系統(tǒng),實(shí)時(shí)售票數(shù)據(jù)通過數(shù)據(jù)同步技術(shù)進(jìn)入到鐵路總公司營(yíng)銷系統(tǒng),另外,來自于互聯(lián)網(wǎng)售票查詢集群的余票相關(guān)數(shù)據(jù)也進(jìn)入到營(yíng)銷數(shù)據(jù)庫,多個(gè)渠道的數(shù)據(jù)形成所需分析的數(shù)據(jù)源,通過Hadoop平臺(tái)ETL裝置進(jìn)入鐵路總公司營(yíng)銷數(shù)據(jù)倉庫,在客流預(yù)測(cè)子系統(tǒng)中進(jìn)行預(yù)測(cè)并且形成預(yù)測(cè)數(shù)據(jù)進(jìn)入票額預(yù)分執(zhí)行子系統(tǒng),票額預(yù)分執(zhí)行子系統(tǒng)形成預(yù)分方案通過傳輸下發(fā)到各鐵路局形成預(yù)分方案,通過票額預(yù)分執(zhí)行子系統(tǒng)作用于席位庫,對(duì)生成的初始票額進(jìn)行預(yù)分。在各鐵路局通過票額預(yù)分優(yōu)化子系統(tǒng)對(duì)預(yù)分效果進(jìn)行實(shí)時(shí)反饋,形成優(yōu)化方案供鐵路局客運(yùn)決策者進(jìn)行調(diào)整,實(shí)現(xiàn)智能調(diào)整流程。
2.1客流預(yù)測(cè)子系統(tǒng)
客流預(yù)測(cè)子系統(tǒng)是該系統(tǒng)的核心系統(tǒng)。歷史數(shù)據(jù)是對(duì)未來計(jì)劃預(yù)測(cè)的重要依據(jù),有效數(shù)據(jù)量越大、越全面,得到的預(yù)測(cè)結(jié)果也會(huì)與實(shí)際更為接近。目前,文獻(xiàn)中最常見的客流預(yù)測(cè)方法是外推法,該方法有很多成熟的模型,如指數(shù)平滑、ARIMA模型、非線性回歸模型、神經(jīng)網(wǎng)絡(luò)模型等。Vlahogianni,GoliasandKarlaftis指出神經(jīng)網(wǎng)絡(luò)在短期交通預(yù)測(cè)領(lǐng)域是最有潛力的技術(shù),并且一些文獻(xiàn)也歸納了神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),如分布自由、全局最優(yōu)逼近和容錯(cuò)性等,還有一些學(xué)者基于神經(jīng)網(wǎng)絡(luò)使用定量的方法建立了鐵路客運(yùn)量預(yù)測(cè)模型,因此,本系統(tǒng)采用神經(jīng)網(wǎng)絡(luò)構(gòu)造預(yù)測(cè)模型。
2.2票額預(yù)分執(zhí)行子系統(tǒng)
票額預(yù)分執(zhí)行子系統(tǒng)的主要功能包括預(yù)分車次定義、預(yù)分天數(shù)定義、專家參數(shù)定義、預(yù)分方案審核、預(yù)分模板交路維護(hù)、預(yù)分方案查詢及修改、預(yù)分結(jié)果查詢等功能。其核心概念如下:
(1)預(yù)測(cè)數(shù)據(jù)。預(yù)測(cè)數(shù)據(jù)是通過Hadoop平臺(tái)的MapReduce并行預(yù)測(cè)算法計(jì)算得出的分車次數(shù)據(jù),其存在形式為始發(fā)站—終點(diǎn)站(OD)客流矩陣。
(2)預(yù)分方案。預(yù)分方案是基于預(yù)測(cè)數(shù)據(jù)生成的票額分配方案,是結(jié)合實(shí)際票額情況通過票額分配算法調(diào)整而生成的實(shí)際票額OD矩陣。
(3)預(yù)分模板。預(yù)分模板是歷史預(yù)分方案經(jīng)過專家經(jīng)驗(yàn)確定的內(nèi)置預(yù)分方案。鐵路局客票管理人員可自定義預(yù)分模板。預(yù)分模板可通過經(jīng)驗(yàn)值人工指定,也可以通過“模板復(fù)制”功能獲取一段時(shí)間內(nèi)的預(yù)分?jǐn)?shù)據(jù)后,參考得出模板值。預(yù)分模板分為精確模板和模糊模板,精確模板與預(yù)分方案OD區(qū)間一致,設(shè)置了每個(gè)預(yù)分站票額的可售區(qū)間,模糊模板是對(duì)車站分組并按以遠(yuǎn)站分塊分配票額。
(4)預(yù)分方式。由于淡旺季客流的不同,決定了預(yù)分方案的不同。一般來說按模板預(yù)分管理更加嚴(yán)謹(jǐn),而按預(yù)測(cè)預(yù)分更貼近客流實(shí)際情況。針對(duì)各鐵路局淡旺季的'不同,操作員可通過此功能對(duì)預(yù)分方式進(jìn)行定義。操作員可以在此查詢到本局所有車次的預(yù)分方式定義,并對(duì)相關(guān)車次的預(yù)分方式定義進(jìn)行追加和刪除,并查看相對(duì)應(yīng)的操作日志。
(5)預(yù)分車次分組定義。對(duì)一些具有相同管理需求的車次,操作員可以將這些車次分成一組進(jìn)行統(tǒng)一定義,同一組內(nèi)的車次可一并添加到預(yù)分方式定義中。此功能避免可避免客運(yùn)管理人員對(duì)同一類車的重復(fù)定義。
預(yù)分結(jié)果記錄在預(yù)分結(jié)果表中,再回傳至票額預(yù)分優(yōu)化子系統(tǒng)。計(jì)劃預(yù)分的數(shù)據(jù)也可以來源于鐵路局客票生產(chǎn)庫中的預(yù)分模板和模板交路,這樣可以得到一個(gè)相對(duì)穩(wěn)定的預(yù)分方案。
2.3票額預(yù)分優(yōu)化子系統(tǒng)
2.3.1動(dòng)態(tài)票額預(yù)分
由于客票系統(tǒng)預(yù)售期較長(zhǎng),傳統(tǒng)的票額預(yù)分方案是基于預(yù)售期外1次預(yù)測(cè)結(jié)果生成的,預(yù)售期之內(nèi)不再重新預(yù)分,因此,無法適應(yīng)預(yù)售期內(nèi)偶然事件的影響。從2014年開始,票額預(yù)分系統(tǒng)引入了動(dòng)態(tài)票額預(yù)分,可在預(yù)售期內(nèi)進(jìn)行周期性的動(dòng)態(tài)客流預(yù)測(cè)及多次動(dòng)態(tài)調(diào)整,如圖6所示。以2014年6月17日為例,這一天預(yù)測(cè)子系統(tǒng)將產(chǎn)生2014年7月10日始發(fā)列車的OD客流預(yù)測(cè),同時(shí)調(diào)整2014年6月30日和2014年6月23日的始發(fā)終到預(yù)測(cè)數(shù)據(jù)(這兩日初始預(yù)測(cè)數(shù)據(jù)分別在2014年6月8日和2014年6月1日生成),在票額預(yù)分執(zhí)行子系統(tǒng)中將預(yù)分2014年7月6日始發(fā)列車的席位,并對(duì)2014年6月29日和2014年6月22日始發(fā)列車的票額進(jìn)行重新預(yù)分。
票額動(dòng)態(tài)預(yù)分是基于客流按周變化的規(guī)律較為顯著的特點(diǎn)進(jìn)行的。在預(yù)售期為20天時(shí),最多通過3次預(yù)分即可達(dá)到非常滿意效果,但在預(yù)售期延長(zhǎng)至60天的時(shí)候,由于客流變化較大,且高鐵、城際列車在開車前一日和當(dāng)天的預(yù)售情況變化非常顯著,僅靠預(yù)售期之外的動(dòng)態(tài)調(diào)整也不能很好的滿足預(yù)測(cè)需求,結(jié)合余票快照分析技術(shù)實(shí)現(xiàn)敏捷票額調(diào)整。
2.3.2敏捷票額調(diào)整
余票快照分析模塊能記錄每個(gè)時(shí)刻余票歷史截面的可售能力。由余票快照分析模塊取得的余票情況可通過圖表觀察得知,圖表的橫坐標(biāo)為觀察日(觀察點(diǎn)),縱坐標(biāo)為對(duì)應(yīng)的觀察點(diǎn)的余票快照數(shù)據(jù)。一條折線表示對(duì)應(yīng)某一下車站的余票變化趨勢(shì)。余票波動(dòng)圖用于顯示在車次、日期、席別、上車站確定的情況下,到各站的可售剩余票數(shù)隨時(shí)間的變化情況。在預(yù)售期內(nèi)距離發(fā)車時(shí)間3天以外的取數(shù)時(shí)間間隔為1天,3天以內(nèi)的時(shí)間間隔為1h。
2014年5月12日7:00始發(fā)的G101次列車各區(qū)間的余票消逝情況,默認(rèn)為北京南—上海虹橋這一始發(fā)終到區(qū)間的余票,可得知該區(qū)間首次售完在2014年5月11日23:00。說明次日首列始發(fā)的京滬高鐵動(dòng)車始發(fā)長(zhǎng)途票在前一日晚間23:00全部售罄,由于首班高鐵旅客一般不會(huì)在開車前即買即走,而夜間高鐵旅客購票相對(duì)較少,相當(dāng)于既能保證始發(fā)長(zhǎng)途票在開車前有票可買,又能保證始發(fā)長(zhǎng)途票及時(shí)賣完。因此該結(jié)果符合預(yù)分的初衷。若開車前始發(fā)長(zhǎng)途票既未賣完,而沿途區(qū)間在開車前一直無票可售,則說明始發(fā)長(zhǎng)途預(yù)留過多,因調(diào)配一些到沿途站銷售。
3結(jié)束語
實(shí)際應(yīng)用中Hadoop集群使用了16臺(tái)HPDL380的服務(wù)器,操作系統(tǒng)是RedHat6.4,每臺(tái)服務(wù)器上安裝了JDK1.6和Intel的Hadoop穩(wěn)定版IDH2.3。16臺(tái)服務(wù)器中,1臺(tái)機(jī)器作為Master節(jié)點(diǎn),剩余機(jī)器作為Slave節(jié)點(diǎn)?土黝A(yù)測(cè)子系統(tǒng)開發(fā)環(huán)境采用Eclipse,開發(fā)語言使用Java;票額預(yù)分執(zhí)行子系統(tǒng)前臺(tái)應(yīng)用采用PowerBuilder開發(fā),與客票核心系統(tǒng)保持一致;預(yù)分優(yōu)化子系統(tǒng)采用.net開發(fā)。
通過對(duì)京滬、京廣等干線經(jīng)過一段時(shí)間的試用及跟蹤分析,可看出旅客發(fā)送量、客運(yùn)收入都有5%以上的提升。尤其是在傳統(tǒng)的客運(yùn)淡季,其增收的效果更為明顯。
在鐵路運(yùn)輸企業(yè)改革推動(dòng)下,鐵路客運(yùn)業(yè)務(wù)快速發(fā)展,對(duì)新一代客票系統(tǒng)對(duì)票額管理精細(xì)化和智能化以及提高鐵路運(yùn)輸企業(yè)效益等方面提出了更高的要求,基于大數(shù)據(jù)平臺(tái)構(gòu)建了動(dòng)態(tài)票額智能預(yù)分系統(tǒng),形成了“預(yù)測(cè)、預(yù)分、監(jiān)控、調(diào)整、再預(yù)測(cè)”的閉環(huán)流程。進(jìn)一步提高了票額預(yù)分系統(tǒng)的可用性和有效性,為鐵路實(shí)施收益管理提供理論依據(jù)和技術(shù)儲(chǔ)備。
【簡(jiǎn)析基于大數(shù)據(jù)平臺(tái)的動(dòng)態(tài)票額智能預(yù)分系統(tǒng)的研究與實(shí)現(xiàn)論文】相關(guān)文章:
簡(jiǎn)議鐵路旅客列車票額智能預(yù)分研究論文11-01
簡(jiǎn)析基于web 的虛擬實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)論文11-17
基于數(shù)據(jù)抽取與訂閱實(shí)現(xiàn)數(shù)據(jù)共享分析及研究論文10-30
基于GIS的農(nóng)業(yè)動(dòng)態(tài)信息共享網(wǎng)絡(luò)平臺(tái)研究論文11-07
論文:短信平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)06-24
簡(jiǎn)析基于CAD的偏置曲柄滑塊機(jī)構(gòu)的設(shè)計(jì)與研究論文10-29
基于Hadoop平臺(tái)的課程云系統(tǒng)開發(fā)研究論文10-30
基于物聯(lián)網(wǎng)的草莓無土栽培智能管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)研究論文10-21