在5月15日的大会主题演讲上,微软亚洲研究院主管研究员,微软城市计算项目总设计师郑宇发表了题为《大数据与城市计算》的演讲。
微软城市计算项目总设计师 郑宇
以下为演讲实录:
郑宇:很高兴大会邀请我能够跟大家分享一下最近这方面的一些研究成果。今天的题目就是大数据和城市计算。大家知道这个世界上大城市越来越多,但是问题也越来越大。空气污染、能耗增加、交通拥堵。同时也有很多大数据。刚才各位嘉宾讲了大数据,有地图数据,交通流数据、人口流数据以及环境监测数据。这些数据很好的反应了城市的问题,如何把这些数据协同挖掘解决城市的问题。我们既要让人的生活变得更好,也要让城市效率变得更高,也要让环境得到保护。所以是人、城市和环境三一的结果。
怎么做呢?就是通过城市计算来做。城市计算具体的模型和框架:有四个层面:第一要通过各种传感器的技术来不同的感知城市的韵律,获得大的数据。第二部分是对大数据进行异构管理,第三步是进行挖掘分析,第四步要提供分类。包括我们要改进分类,能够让交通不拥堵、空气好这都是要解决的最重要最困难的问题。
第一个特点,我们要利用同的传感器感知城市的交通流空气等等,人作为一个传感器非常特别,大家发一个微博或者上传一个照片到微信,可以帮助我们感知这个事情的发生。这是一种数据的描述帮助解决问题。
第二点,有那么多不同的数据,有天气、有环境,有POI数据,一个是静态的,一个是动态的,如何把这种不同性质数据进行结合挖出更多的知识?这是一个很大的挑战。以前是单数据单任务,现在是多数据多任务。对它的管理本身就是一个很大的挑战,怎么把数据协同也是很难的。
第三点,城市计算里面通常会产生一种混合式系统。就是它会连接虚拟世界和物理世界。我们的数据来源于物理世界,但是数据分析在虚拟世界,在云上面。服务对象也可能是虚拟世界的用户,也可以是现实生活中的用户。所以现实和虚拟来回转换。
城市里面有哪些大数据?交通流人的移动性从哪儿到那儿?包括经济环境。数据确实已经大量存在。哪些数据可以利用来做分析?用来改进城市的环境?
第一个就是道路数据。通过数据可以看到城市的发展,城市可能存在的问题也可以从数据中得到。
POI数据:这是北京市酒吧和电影院分布图,每一个黄点表示的是一个电影院,蓝点表示的是酒吧。北京有多少个就罢了?说明北京已经变得非常国际化了。举个例子,北京市电影院的数目在过去五年里面持续的增加,现在是260多个,这说明什么问题?就是越来越多的北京人喜欢到电影院看电影,而不是去买DVD。地铁,很人多都有公交易,现在北京市有一千多万张交通卡,进站出站的时候记录反应了整个北京市的人流什么时间从哪儿流到哪儿,它可以帮助改进交通规划,也可以进行交通流的模拟改进等等。
空气质量:大家现在非常关心PM2.5,北京市已经建很多监测站不停的测量空气各种各样的进程,包括PM2.5,以及气象条件。这里面可以反应出污染源的来源是什么。房价数据大家也很关心,其实这是反应了不同的经济的韵律,这也是我们研究的课题。
Check-in Data,这是告诉我们一个人在什么时间在什么地方出现。
这个数据是北京市出租车的轨迹任务图,可以看出国贸地图是量比较大的。这更重要的反应了城市里面的人流。
北京市出租车占北京市道路交通流量20%到25%,这是北京市人口流动非常重要的一个比重的数据。通过这个可以看到一个变化,明显东北部国贸地区的人的密度比其他地区高,同时工作日,人们到城里的概率比节假日大。基于这些数据做了什么事情呢?我们看一些实际的案例,第一个就是一个实时的动态的停车系统。因为现在大家都说打车难,增加出租车的数量并不解决问题,会使道路变得更加拥挤。而且司机还抱怨,现在还有叫车服务,其实并不提高出租车系统的容量。真正需要的是提高出租车系统容量,能够多拉客人,但是乘客费用降低,司机收入增加,这才能解决三方面的问题。
我们现在做这样的一个方案解决三方面的需求。我们有很多的人在城市里要打车,很多车在路上跑。假设这个人要打车,他通过一个软件提交服务告诉他你打车去哪儿,我们能够通过一辆车,如果这个车上有一个人了,你问他我可不可以接一个人,回答以后我们会告诉想打车的那个人什么时间来接你,车牌号多少,费用多少。
我们做了一个仿真,是通过北京市的出租车数据选出了真实人的需求,建立了一个模型。蓝色、红色、绿色(代表人),看某一个具体车如何规划,如何减少空载。比如一个人收到新的需求,他规划新的线路,这样不停的算,这些东西好是好,但是挺难的,因为人都很懒,他不会提前告诉你我什么时候打车。车的位置也是动态的。
第二点是规模非常大,不像以前拼车是小区里面几个人,我们有上百万的用户,几万辆车,不停的算用户没有时间等你,提交请求之后必须一分钟之内回答我,什么时间来接我?所以这个问题非常非常难。如果把出租车车看成卡车,人看成货物,那么整个物流会提高,提高多少?经过仿真结果推算一年会节省8亿,就是够一百辆车跑十个月,经济价值可以省到十万美金,(一个城市),16亿千克二氧化碳。我们的服务至少可以提高300%,但是费用能够降低42%。司机收入会增加16%。
第二个从政府角度看看这个问题,北京市可能有些地方比较拥堵不管怎么建议都不能真正解决问题。原因可能是因为这个地方的规划可能就不合理。我们能不能利用历史数据累计找出这个城市里面规划不合理的地方。其中颜色越深的表示问题发生的频度越高,什么叫问题呢?就是这两个区联动性不好,人们通过这两个区域的时候流量很大,并且不得不绕路,这个地方肯定是有问题的。我们可以看一些例子,通过把这几年的数据进行对比,可以找出这个地方到底什么地方有问题。比如望京,2009年之前望景的人通过这两个区域上四环,所以这里有一个瓶颈,后面这条道路扩宽了,这个问题消失了。
第三个是找出城市里面不同的功能区划。这就是北京市不同区域的表达,不同的颜色表示不同的功能。比如红色、大红色,表示的是北京市的文教科技区域,黑色表示成熟的商业区域。但是我要强调的是一个城市里面某个区域的功能绝非单一,它是一个复合式分布。比如清华大学旁边也难免有些饭店。由于各种各样因素这个城市并不是按照规划发展,过了五年,我希望这个城市现在在什么地方?核心区在什么地方?怎么样扩展?这样的信息我们可以更加准确的规划下一个版本的城市。
我们把两年的数据结果进行对比,左边的图是2010年,右边是2011年。两个图区域颜色发生了变化,A区域以前是黄的,表示新兴的住宅区。到2010年的时候变成了灰色,表示这个区域正在被建设。其实这是很奇怪的事情,原因是北京第一高楼在这儿开建了,这个地方确实在拆迁,所以这个方法很准。
另外就是前门大街,以前是一个公园和自然风景区。奥运会前后对前门大街进行了重建,这里的人流确实不是商业街,变成了黑色。还有一些地方跟城市规划相比较,左边是土地规划,右边是结果,这是望京区域,大部分还是对的,中间也出现了紫色的区域。这样的话可以帮助更好的规划和POI的配套。
最后一个就是空气质量问题。大家每天都在看空气质量如何如何,你们也有很多手机的应用可以告诉你,现在北京PM2.5是多少,但是你所知道的PM2.5是整个北京的平均值不是你周边的。北京市大概有20多个空气质量监测站,但是北京有这么大的范围很多地方是没有的。比如植物园的空气肯定不能跟中关村的空气比,更不能跟西单比,因为污染排放物密度不一样,所以你拿到平均的PM2.5的值没有什么价值。
那么说为什么政府不多建几个监测站呢?实际上建一个监测站不是那么容易。监测站需要很大的一片土地,需要很多设备,如果专业建站不是那么准确测量。这也是为什么政府说不让大家买淘宝的几百块的测一侧,那个确实不准。所以不能什么地方都能建,也没有必要在什么地方都建。
这个图是两个空气质量监测站,一个是西单,一个在后海,右边PM2.5的差别可以差到三倍。我们要做的就是结合大数据,利用已就空气监测的数据,以及加上天气数据,交通流数据,人口流动数据,道路数据,和POI数据,共同的把城市每一个角落的数据算出来。这样的数据我们可以告诉你此时此刻周边的数据如何,第二我们可以告诉政府在什么地方建空气质量监测站是我们需要的。也许建十几个空气质量监测站我们就能把整个城市的数据推导出来。谢谢大家!
(以上报告内容为现场速记,未经本人审核)
{{item.content}}