漂浮在一条棕色河的塑料瓶。

暗数据–水文景观中的水文垃圾

在现代世界中,一次性使用资源是不礼貌和不考虑的。

用垃圾乱扔垃圾在社会上是不可接受的。该信息可能需要花费数年的公众教育时间,但其结果是减轻了对我们环境的压力,并提高了每个人的生活质量。

为什么水文数据有不同的道德规范?

通常通过公共费用获取用于各种计划和项目的水文数据。但是,在达到其主要目的之后,其中的大部分数据都被归档了,再也看不到了,就像垃圾场中的垃圾一样。仅当明确收集数据以供重复使用时(例如通过国家水文计划),水文数据才能得到适当的整理,以使其易于搜索,发现和访问。

在水文测量界,普遍的态度是,以适合于重用的方式来管理数据太麻烦,太昂贵和太耗时。这些观点与所有回收计划的障碍完全一样。资源丰富,为新资源开采环境要比重用或回收已经开采的资源便宜。

数据挖掘比这复杂得多。如果在给定的时间内获取了给定水体的数据,则这些数据是唯一且不可替代的。永远不可能回到那个时间和地点并复制这些数据。一旦数据丢失,丢失是不可逆的。

水文数据是稀缺资源。水文科学对数据的需求旺盛。水资源管理是一项数据驱动的活动。尽管如此,在不期望将创建和管理有意义的元数据的情况下获取数据被认为是正常且可接受的。这不可避免地导致数据变暗。

一个普遍的论点是,数据生产者实际上通过隐藏其数据不被重用而实际上在给数据消费者带来好处,因为否则重用可能会被滥用。毕竟,论据如此,没有数据比坏数据更好!

我认为,好,坏以及介于两者之间的主观用语完全取决于上下文。一个人的垃圾是另一个人的财富。有人可能会争辩说,只有公开收集了最高标准的数据才可以公开使用。我认为即使收集到最原始标准的数据也可能有用。

著名的报价 乔治·博克斯 可以将“所有模型都是错误的,但是某些模型有用”用于水文数据共享:“所有数据都具有不确定性,不确定数据可以有用。”

作为一个思想实验,考虑一条小溪越过小学。假设作为一个课堂项目,老师为孩子们提供了一些基本的工具和有关流量测量的培训。每班有30名学生,每人每天都要测量水流,并且每人每年都会产生一次水位图。这些初级水文学家的技术,技能和培训将导致大多数专业人员将其视为“不良”数据。但是,如果所教授的技术本质上是无偏的,则所有30位学生的水位图将以代表测量不确定性的分散模式来描述流量。

这是低成本传感器网络出现的基本概念,通过该传感器网络,大量但便宜的数据采集可实现统计修饰技术,该技术有时可胜过昂贵但稀疏的数据采集技术。如果“不良”数据足够统计有意义,那么它们可能会提供大量信息

假设您是一位负责为这条小河设计涵洞的工程师。您是否有兴趣查看此“不良”数据?还是您会更快地假装没有数据,因此可以将其像其他未开启的流一样对待。假设您的设计过早失效,如果您选择忽略它,那么诉讼律师会在这个“不良”数据中找到价值吗?

可重用性的关键是数据的来源必须是可发现的。

数据生成者需要付出一些努力,并且我认为这是争论的核心。在没有任何回报的情况下,水文学家宁愿ho积而不是分享他们的数据。不再使用的数据不需要元数据。

即使有出处,数据消费者也需要对其进行评估。 基思·贝文博士 领导了一场运动,对水文界进行虚假数据危害的教育。不良的模型设计和不良的模型校准通常是试图在水位图中重现极值的结果,这些极值是由构思欠佳的额定曲线外推得出的。众所周知,水文学家不加区别地使用数据。

饥荒期间没有鉴赏家!

水文学是一门数据匮乏的科学。如果水文学家找到数据,他/她将使用它。人们只有在资源过剩的情况下才关心来源。当红十字会向难民营运送一卡车食物时,没有人质疑它是否经过认证是有机的,自由放养的和无麸质的。当水文专家工作量很少时,他们不会质疑其数据的来源。

如果我们能够以某种方式解锁黑暗数据的仓库,那将是相对丰裕的。

面对如此丰富的水文学家和其他数据消费者,他们实际上可能会学会更多地关心他们的数据来源。

面对现代技术,以促进数据共享的方式来管理数据需要付出如此繁重的负担吗?出于单一目的收集的数据具有有限的价值。无论现在还是将来,共享的数据都具有无限的潜在用途。因此,共享数据具有无限价值。

问题是:水文测量界会面临挑战吗?请在下面回复。

1条评论
  • 维奥莱塔·卡贝洛·比利亚雷霍
    回复
    发表于2015年2月23日下午1:37

    好吧,我可以’同意您对斯图的看法。我上周刚刚参加了在圣何塞举行的公民科学会议。其他领域的人们正在聚集在数据收集和共享社区中,以克服与您为水域带来的障碍类似的障碍。令人惊讶的是(?),《公民科学》中还没有水社区,有一些有关水质监测的举措,但没有一致的策略…似乎最大的挑战是首先创建社区,然后开始在挑战中共同努力。我想到的问题是,为什么水科学家如此分开?

发表评论

评论
名称
电子邮件
网站