水文信息图形。

您的水文数据包含多少信息?

我以前写过 测量不确定度的测量 (2011年12月9日)。

这个问题的反面是对数据中包含的信息的度量。

考虑这一点的一种方法是想象我们的传感器是机器人学生,他们被分配学习有关某种环境条件的一切知识的任务。然后,我们要求他们告诉我们他们学到了什么,并且我们通过一些可考验的评估来评估他们告诉我们的内容。

与为人类学生分配学习课程中所有内容的任务的方式并行的同时,可以根据参考数据测试“学习”信息的程度。根据正确答案的百分比对人类学生进行评分。问题在于,并非所有测试都是相称的。为了减轻这种情况,我们可能会逆曲线评分’并指定字母等级,以便将所有优异成绩与好,一般,差和失败成绩区分开。我们还可以提供“权重”,以使测验的权重与期末考试的权重不同。

为水位数据分配等级(也称为质量代码,符号或限定符)的概念已经存在了一段时间。最终测试伴随着我们可以询问传感器的每次实地考察:此时此刻的水位是多少?相反,一位教授会问学生很多问题,以评估自上次测试以来他们对信息的吸收程度。问这个问题毫无意义:“什么是高峰水位的确切时间和大小?”因为我们不知道真正的答案。相反,我们可以问一个问题:“自从上次测试以来,数据中是否存在异常或不连续性?”换句话说,在缺乏证据证明数据都是真实的证据的情况下,我们至少有证据支持我们的“信念”数据可能是真的吗?

我们可以看到这样的隐喻,即根据数据的主观评分来对学生进行评分。有用于测量学生信息内容的完善协议和传统。

对于水文数据来说就不那么多了。

测量水文数据的信息内容存在几个问题:

  • 结果与适用性紧密相关,任何给定的数据集均可用于多种用途;
  • 实地访问的时间和频率通常不足以可靠地衡量信息内容;和
  • 通过环境证据评估信息内容(例如检查时间序列中的序列自相关)通常会识别出明显的故障,但是没有明显故障的证据与数据真实的证据不同。

同样,也有完善的协议和传统来汇总学生的成绩(即 平均绩点)同时包含在一门课程中以及一系列课程中(例如 学位课程)。

我找不到任何国际认可的用于汇总水文数据等级的标准方法。

数据等级汇总的广泛实践协议是它们既不能求和也不能求平均值,因此GPA是不可能的。公认的是,在所有数据收集中都会引用“最低成绩获胜”规则,而不是GPA。这意味着,如果我在一门课程中未能通过15分钟的弹出测验,即使我获得了3小时的期末考试,我的整个课程也会得分不及格。该课程不及格的成绩将赢得该课程期间我修过的所有其他课程,因此我将使该课程不及格。

数据等级只能代表数据信息内容的下限,不要与数据中信息的全部潜力相混淆。一旦我们就客观量化水文不确定度的方法达成共识,则不确定度估计可能仅代表 数据信息内容的上限。数据中的真实信息可能无法用等级或不确定性很好地表示,尤其是在认识错误的情况下。真相可能介于主观数据分级和不确定性的客观量化之间。


白皮书:可能的最佳水数据! 5现代系统的关键要求

只有满足5个关键要求的现代水文数据管理系统才能实现最佳的数据质量,及时性和可负担性。对您的系统进行基准测试。

7条留言
  • Dave Gunderson
    回复
    发表于2012年7月20日上午12:36

    像往常一样,出色的职位斯图。

    这里’我对这个问题的看法。是否有关于补充数据的固定规则或约定?我什么都没有’ve seen.

    首先,当您说补充数据或支持数据时,这可能意味着几件事。你提到有可能‘flags’在日志中伴随数据的数据。这实际上是一个Data Logger系列(Sutron 9210 XLite)的标准配置。数据记录器使用‘Quality Flag’作为日志条目的组成部分。这是一个字符“G” for good, “B” for bad or “U”对于未知。什么使质量?测量成功。

    This is a start 在 providing supplemental 在 formation about a measurement but it is limited. In my own data collection system, I use a series and types of data quality 标志 for both real-time telemetry purposes and data logging (for analysis and record generation). Let me give some examples.

    为了验证实时数据,您如何确定不良数据?如果传递的唯一成分是数据,我们如何传递质量标志?简单。如果数据有问题,请用数字标志代替数据。我们使用您永远不会获得的编号。我在收藏夹中使用数字-999.xxx作为标记。让’看一下数据记录器中发生的过程:

    测量>>>Process Data>>>数据轮询(来自基站)

    在测量阶段–如果我们从Sensor获得有效的读取,则将传递数据。如果度量不正确,则将-999.777替换为该值。

    一旦测量了数据(而不是-999.777),我们就处理数据。如果此步骤成功,则将处理并传递数据。如果该过程失败,则将-999.666替换为值。

    此时,数据将驻留在数据记录器中,直到从基站轮询为止。投票完成后–一个好的结果就是预期的数据。错过的数据投票将被-999.888替代。

    现在,在轮询序列之后的基站,我们看一下结果:

    -999.777 =传感器损坏。使用另一个传感器将技术发送到现场。
    -999.666 =该网站上的内容不正确。但是它不是传感器。
    -999.888 =我们出现通讯问题或网站已死…
    其他=您已返回有效数据。可以吗

    You see that data 标志 can help a great deal 在 the diagnosing the problems that a collection system may have.

    我用于提供补充支持数据以进行分析和记录生成的方法涉及收集和记录技术。一世’将在另一篇文章中介绍。

    It’天快了,明天我在实地工作很漫长。

    戴夫

  • Daniel Fundisi
    回复
    发表于2012年7月20日上午9:27

    感谢您提供有见地的信息,并提供了一个有趣的数据记录器示例,它们是机器人学生。这使得水文测量不确定性的问题非常清楚。

  • Dave Gunderson
    回复
    发表于2012年7月26日上午1:26

    我以前的帖子谈到了如何利用实时系统中的数据收集来指示收集中的问题。实时数据就是我们所说的临时数据。它不是最终产品。为了成为最终记录,数据需要更正。如果传感器需要校准,则需要对其进行校正。如果数据中存在差距,则也需要纠正差距。

    数据记录器中包含的日志包含传感器数据。该站点上还保存了一份书面日志。它包含实地考察期间记录的实地记录和观察结果。

    想想数据记录器’s作为主要产品。此处包含的信息是传感器数据和时间戳的组合。传感器的收集方法和设置决定了 字符 数据收集。这里’s what I mean –日志条目通常每15分钟发生一次。数据测量可以是该时间段的单个读数,也可以是在15分钟时间范围内取平均值的一系列测量。什么是更好的产品?它是即时读数还是平均读数?考虑日志中的可用空间量–为什么不收集两个读数?此时,我们在日志中有两个STAGE条目,但是它们具有不同的特征(时间上)。即时读数会告诉您时间戳的确切水平,平均读数会告诉您时间范围的阶段。

    可以利用数据收集过程来提供更好的最终产品。下一级实际上位于传感器中。我们使用的大多数传感器都是基于微处理器的,并使用SDI-12接口。可以对传感器(取决于类型)进行编程以输出多个数据。还可以将仪器编程为在单个测量请求期间进行内部平均。

    看这种情况。让’例如,我们可以每分钟从数据记录器的轴编码器进行一次STAGE测量。我们可以对该轴编码器进行预编程,以在该分钟时间内获取一系列读数。轴编码器可以在30秒的时间范围内进行一系列的一秒测量。然后查询编码器以给出该时间段的平均平均值以及最小值&最大值也是如此。通过这样做,我们完成了什么?我们已经获得了有关现场动态情况的更准确的阅读。

    我提到过,现代数据记录器中的记录非常灵活。在过去,我们只有一个日志和一个日志间隔。还记得吗,斯图?今天,我们可以构建包含不同日志记录间隔或按事件进行日志记录的日志。话虽如此–为什么不创建一个包含每分钟记录的数据的辅助日志?在此日志中,我们还可以记录该MAX&MIN值也是如此。当拥有这样的辅助数据时,您可以确定现场条件并查看事件的发生。在我的系统中,我将此称为DISCHARGE日志。

    作为一般规则,如果工具可以提供任何有用的辅助信息–我记录下来。数据记录器有空间。为什么不存储它?

    斯图,在您的帖子上–您询问有关合格数据的信息,这些数据将有助于您更好地了解远程站点的状况。这就是我的解决方法。

    场地不确定性是由多种原因引起的。您在现场条件和传感器本身上可能会不稳定。收集和记录不同参数的方法通常会为我们指明正确的方向,以确定原因。

  • Andrew Neal
    回复
    发表于2012年7月26日晚上11:03

    斯图–

    对于水文建模人员而言,一篇非常有趣的文章和这类问题是一个长期存在的问题。正如您所说,唯一知道包含在单个数据点中的信息的方法是,根据该点的条件(即,如果您拥有某个点),对该点在任何给定点的值具有先验概念其他变量与您感兴趣的变量之间的功能关系。在这种方法中,您基本上假设先验模型代表了系统,并充当控件来识别目标数据何时(也许为什么)不能反映预期的结果。像Dave上面提到的那样的数据编码方案将描述物理或电气问题与基础测量质量之间的关系。

  • 发表于2012年7月31日晚上7:43

    我将尝试同时回复戴夫和安德鲁。

    戴夫谈论的技术既可以从原始传感器读数中创建新的,有用的信息,又可以存储理解和解释此信息所需的所有元数据。

    安德鲁正在谈论独立验证信息的能力。当您在杂货店结账时,如果您已经完成了总和,那么您可以放心地信任收货收据。

    我对可能的理解是:

    1.可以对信息进行逻辑测试,从而根据通过/失败标准生成机器生成的元数据。这些是某种数据质量的二进制度量,因此不能在逻辑上与任何其他数据质量度量组合。换句话说,在任何给定的时间戳记下的值都可以累积这些指标中的几个指标,所有这些指标都与病理数据的法医分析有关。测试的性质可以确定数据是否仍然可用,如果不能,则可以从更下游的可见性中检查数据值。

    2.根据对似乎合理的先验模型的符合性,对数据进行人工分级。该模型可以通过以下方式得到通知:其他变量(例如上游仪表正在做什么);证明仪表正常工作的证据(例如检查车载诊断程序);并证明仪表已按照标准操作程序进行了操作(例如检查书面日志)。监督分级本质上是合理的,并且是后验的,因此对于这种类型的元数据需要不同的规则集。

    3.上下文元数据(例如,编程到传感器和记录器中的算法)可以以文本格式存储并与数据块关联。不幸的是,这种元数据往往不是机器可读的,因此接收系统不知道如何处理它。也很难以将来可以在任何时候发现的方式将此元数据链接到数据。

    这一切听起来不错,但是我在几个方面都在努力。一件事情是轴编码器给出30秒1秒读数的最大值,最小值和平均值的情况。这提供了精确的平均值以及色散的度量,因此您既不会丢失有关水位的信息,也不会丢失有关湍流的信息。在采样周期的开始,中间或结束时,您会提供什么时间戳信息?您如何在一个小时内或在评级测量期间汇总一系列这些读数?如果您想对非采样时间范围内的值进行推断,则需要对一系列平均值求平均非常小心。

    我认为,有效地取消绑定此上下文将需要机器可读的元数据。有用的是某种行业范围的标准,用于对传感器和记录器编程元数据进行编码。

  • Dave Gunderson
    回复
    发表于2012年8月1日上午1:08

    我想知道我上一次发贴的时间–将发布。我知道Stu,您会有更多的问题和疑虑。

    我对数据采集和测量的了解是我们对它们的理解。以数据记录器中的定时条目(测量)为例’的日志。读数是静态的,时间戳是线性的。该网站的属性是 动态。当你’在现场,您会看到它们的发生。随机的船只通行引起波浪,影响静水井,在运河或大坝中看到的快速变化’的尾巴。您开始以媒介为移动目标进行思考,’重新拍摄以获得准确性。您还将学习进行测量和计时之间的独特关系。正如您正确地说出Stu一样,您需要考虑一系列时序数据并考虑时序问题,‘time lag’。真正?是的,但不是查看方式。您正在查看一段时间内的平均值。如前所述,我收集了该时间段的“即时”(最近一次测量的读数)和“平均”数据。

    @Andrew:作为建模者,什么组件会更有价值–即时读数还是平均读数?对于进行水核算的人来说,什么更能代表这种情况?

    斯图,你的另一点–高科技数据记录没有标准或采用的约定。真正。您与该小组中的任何人最近一次进行对话的时间是什么时候?我到处走走’与感兴趣的任何人讨论了该主题。

    一想到我’d想扔出去是人们普遍对学习新技术的阻力。在过去的20年中,设备发生了很大变化。学习和精通往往需要许多人不愿进行的学习。如果我说学习编程和将技术与任务结合起来很简单,并且可以在不到一年的时间内掌握– I’d be lying.

    另一个普遍真理是,最好的知识不是’在教室里学到的,是在现场获得的。文档在哪里?还是谁有时间将其全部写下来? USGS酒吧也没有’•深入探讨当前的话题或情况。仅一般而言。

    回答有关最终数据和水文学家的信息–他们完全了解收集方法和算法。它’是文档最终记录的一部分。所有过程开发中有趣的事情–总会有一些改进。这通常发生在我们坐下并头脑风暴的事情之后。

    我的主要目标是使他们的工作更轻松地维护网站并产生良好的记录。

发表评论

评论
名称
电子邮件
网站