上海面积变化统计图 搜集上海的人口土地和经济数据

用足够多的数据逼近真相。

摘要

数据是现代社会分析决策的重要依据。本文通过介绍互联网上公开的行业经济数据,为读者提供获取数据的途径,打开分析上海房地产市场的思路。本文将努力避免主观论述,关注数据本身的真实性与准确性,并尝试启发读者自己去发现数据中隐藏的客观规律。

写作动机

上海是一座充满魅力与机遇的城市。或许正因如此,上海居民承担着全球领先的房价收入比[2]。购房成为了代价高昂且容错率极低的决策行为。人的生活离不开衣食住行,了解上海的房屋市场对于想要在这座城市长期生活的居民来说,往往是必要而困难的。政府主导着政策规划与土地供应,二手房卖家主导着挂牌价和二手房源,企业和商人影响着新建房屋的区位和配套因素。很多人喜欢通过阅读官方公布的城市规划,以及包含各种观点的公众号文章来得到对于房屋价值的研判,而在面对众多观点的时候,人很容易感到困惑。如果能借助一些数字指标来校准,或许能帮人做出更加理性的决策。

房地产相关数据源调研

什么是与房地产相关的数据?任泽平将“金融、经济、人口”视为房产市场三要素[3]。从经济上看,中国有着稳定向好的经济环境;从供给侧来看,城市土地拍卖决定了短期未来一手房的供应上限,中介挂牌数据反映了城市二手房的供应情况变化;从需求侧来看,城市人口数量和结构的调整深刻影响着购房需求。除此之外,政府的政策和规划对于市场也具备很强的导向作用,是市场分析过程中不可忽略的参考因素。

如何获取上面提到的这些数据和信息呢?借助互联网,可以以很低的成本从政府和非官方部门采集到相当丰富的数据。统计局公布的年度统计数据(《上海统计年鉴》)较为规范地整理了历年的房地产行业数据以及人口数据,并将其公开在统计局网站[1];链家等中介平台也向所有用户免费提供了二手房挂牌交易信息,可以较为方便快捷地访问。需要强调的是,目前也有一些机构收集整理了房地产相关数据,例如易居,贝壳等服务提供商,但这些数据需要支付费用才能在受限的场景下使用。

上海面积变化统计图 搜集上海的人口土地和经济数据(1)

图1: 历年发布的《上海统计年鉴》截图

官方统计数据介绍

每年的上海统计年鉴都会分20多个模块分别介绍社会经济运作的重要数据,涉及人口、行业投资、物价、教育等社会生活的方方面面。房地产业门类相关数据作为其中一个模块,统计了房地产开发投资到位资金情况、房屋建设情况,销售和出租情况,征收情况,房屋使用权土地使用权出让情况,存量房交易情况等。数据在统计局官方网站上每年发布一次,以表格的形式对上年及历年相关数据做汇总展示。

上海面积变化统计图 搜集上海的人口土地和经济数据(2)

图2:《上海统计年鉴》数据门类截图

数据特点

每次新的年鉴发布,可能会涉及历史数据的修正,例如2019年的统计年鉴中记录的历史数据,与2018年发布的数据可能存在不同。数据以不固定格式的表格形式发布,需要一些人工操作和整理,才能将历年数据对齐格式进行整体分析。

中介交易平台数据

目前中国存在若干互联网房产交易平台。综合舆论评价,链家的交易数据相对准确,在一线城市所占据的市场份额较高,相比其他平台能更好地反应市场交易动态。但链家本身不会直接发布统计数据,所以一般情况下,需要借助程序脚本抓取并处理链家网站相关数据,才能据其进行分析。

数据特点

链家网站上对于房源的描述信息既包含面积、房龄、布局、交通、交易情况等房屋情况描述信息,也包含实景照片、评论等非结构化信息,如图3所示。除此之外,链家还记录并公开了小区的描述信息,包括建筑年代,楼栋数量和房屋总数,挂牌均价等数据,如图4所示。

上海面积变化统计图 搜集上海的人口土地和经济数据(3)

图3:上海链家房屋情况页面截图

上海面积变化统计图 搜集上海的人口土地和经济数据(4)

图4:上海链家小区情况页面截图

以小区相关数据和房屋相关数据为例,目前能从直接链家网站上抓取到的数据格式如下表所示:

表1. 链家网站公开小区数据格式示意

类型

备注

示例

bigint

链家小区ID

508420324553041

string

小区名称

嘉隆国际广场

string

地址

(嘉定徐行)胜辛北路1888弄, 汇源路288弄

double

坐标:纬度

31.421133

double

坐标:经度

121.209452

string

小区所属板块

上海房产网,上海小区,嘉定小区,徐行小区,嘉隆国际广场

int

建成年份

2017

string

建筑类型

塔楼/板楼/塔板结合

string

物业公司

南通市中房物业管理有限责任公司

string

物业费

暂无信息

string

房地产开发商

中房集团

int

小区建筑数量(栋)

181栋

int

住宅数量(户)

1985

string

采集时间(UTC *)

2020-12-02 23:41:33

表2. 链家网站公开住宅数据格式示意

类型

备注

举例

bigint

房屋 ID

107102945521

String

房屋名称

枫桦景苑二期 3室2厅 132.99平米

Double

挂牌售价(万元)

370

Double

成交价(万元)

362

String

小区名称

枫桦景苑二期

Bigint

小区ID

5020045663332066

string

建筑类型

板楼

string

房屋朝向

string

房屋楼层

低楼层 ( 共14层)

double

套内面积(平方米)

95.95㎡

string

户型结构

2室2厅1厨1卫

string

装修情况

简装

string

建筑结构

钢混结构

string

梯户比例

一梯两户

boolean

配备电梯

True/False

string

产权年限

date

挂牌时间

2015-04-01

string

交易权属

商品房

date

上次交易

2007-08-23

string

房屋用途

普通住宅

string

房屋年限

暂无数据

string

产权所属

string

抵押信息

无抵押

string

房本备件

已上传房本照片

string

状态

成交

string

成交时间

2020-03-20

string

数据采集时间

2020-12-02 23:41:33

int

关注人数

9

03 数据获取

良好的数据格式和数据质量是数据分析的前置依赖。从实践的角度出发,政府发布的《统计年鉴》数据格式变化多端,较难实现自动化梳理和统计,大概率需要人工介入进行增删改查。而链家的数据格式较为统一,可以用爬虫技术批量抓取并格式化存储在本地,但在后期必然涉及到数据的清理、格式化以及持续更新,这部分工作对于从事数据开发工作的本人来说自然是驾轻就熟了。本文在此提供一份可以参考的源代码,稍作修改即可使用:

链家网站爬虫:https://github.com/lanbing510/LianJiaSpider

粗略统计,在遍历上海链家域名下所有数据后,能获取到20万条以上的房屋小区数据。在完成了数据的清洗归类处理之后,数据分析将会具备非常大自由度,例如,结合《统计年鉴》数据可以得到人口、土地、房屋价格等数据的历年变动曲线,分析不同因素之间的相关性;结合链家的交易数据可以对房屋的真实价格做评估校准,分析不同区域的房屋类型分布和市场价格。

上述数据的收集整理工作已经持续了一段日子,后续将会陆续开放给各位读者,欢迎关注本公众号(data-me),及时获取相关数据。如果你有其他数据源推荐,也欢迎评论分享~

参考资料

[1]上海统计局 数据发布,http://tjj.sh.gov.cn/sjfb/index.html

[2] Cost of living, numbeo, https://www.numbeo.com/cost-of-living/

[3]《房地产周期》,任泽平,人民出版社,2017年

上海面积变化统计图 搜集上海的人口土地和经济数据(5)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页