设为首页 加入收藏

第二波海归回国潮 很多人的第一站是杭州

2017年02月09日 15:25:03 浏览量: 来源:都市快报 作者:沈积慧 梁应杰

  辞掉每天早晨10点上班的安稳工作

  美国数据专家扎根杭州

  作为一个在美国生活和工作了14年的“老海龟”,这两年才被蚂蚁金服挖到杭州的资深数据专家丁国祥,他的个人经历完全可以编成段子:不想卖保险的地理博士,不是一个好数据挖掘专家。

  十几年前于美国毕业后,丁国祥进入全美排名三四位的先锋保险公司。这家公司最有名的项目,是从人们的驾驶行为中,收集开车时间、速度等具体信息,确立定价模型。他进入公司时,驾驶行为系统开始研发第二套算法。

  不过,研发一开始就遇到了当头一棒。在一代算法研究时,美国人出于隐私忧虑不愿安装GPS,可用来实验的数据量并不大。但到二代算法研发时,人们已越来越习惯用GPS,设备价格便宜,这导致能够收集到的信息飞速增加。问题就来了:一辆车,每天开1000秒,每1秒就形成一个数据点……几十万辆车开起来,数据量很快就突破10亿条。但是,要完成统计方面的模拟,100万辆车的数据都是不够的,至少要四五千万辆车的数据来建模——按这个数据生产速度,原来的仓库根本没法存储,“爆仓”了。

  那时,大数据概念离这群工程师还很远。研发团队卡在存储问题上,只能去找供应商,对方说,可以花150万美元升级系统,但升级之后能支撑几天,不好说。

  最后,丁国祥决定自己动手,搭了一个小工作栈,按天切分数据,运行得不错。“那再多搭几台机器就好了呀”——为推进这个朴素的想法,工作小组继续掘进,他们打算多买几台机器试试。接下来,为几台机器的费用,工程师们跟公司IT谈判了三四个月,最后公司同意,花8万元买8台机器。

  大数据工作的基础,就在这简陋而有效的办法中,从无到有地建了起来。8台机器到位后,把原来Oracle(甲骨文股份有限公司)要花150万元解决的积存数据量,在4天内全部处理完。它不仅成功支持了二代算法的研究,之后又一直运行了好多年。丁国祥说,现在那些数据,价值早已不菲。

  不久之后,丁国祥扭身去了别的保险公司。从气象、卫星、土壤、飓风、层高等数据分析房屋风险,再从社区、街区、街道到居民的教育水平,搭建整套的房屋险定价模型;从定价模型到价格优化、客户弹性分析,客户生命周期……

  在美国待了14年,丁国祥已很难遇到挑战。他几乎到了职业天花板的顶端,生活稳定而悠闲,做一份朝九晚五,实际上每天都可以早晨十点去上班的工作,他的状态是“平”的。“也许偶尔有一点涟漪”,但这不是他想要的。

  直到有一天,一家中国公司蚂蚁金服找上门来,给他提供了一片全新的空间。“什么保单保险、扶老人险,都是从没听说过的。”丁国祥说,在这家公司,他又重新看见了更刺激的世界:海量的数据为新算法、为机器学习提供了优质土壤;美国智能手机的普及不如中国,在中国如火如荼的口碑外卖等现实,都是把美国“甩了几条街”的新场景;公司里人才济济,同一个团队里就有很好的机器学习专家,可以随时“勾兑”。

责任编辑:张丹丹 [网站纠错]