基于堆的苹果计算机书。

不适合目的:对虚假信息的伤害

我以前写过关于 虚假信息排放为虚拟变量 但是现在,在同行评审一本享有盛誉的期刊的手稿时,他已经探究了问题的实质。

经验并不愉快。

我的观点来自水文背景,与其他两名匿名评论者(他们可能具有学术背景)完全不同。我强烈反对使用明显不适合目的的排放数据。关键结论取决于这些数据,以将水文和水力对阶段响应的影响分开。我的反对意见导致对该文件进行了两次重大修订,而其他审阅者则认为该文件可以接受,或者最糟糕的是,只需要进行少量修订。

我试图迫使作者在做出结论时不理会虚假数据,或者就数据的不确定性提供清晰的陈述(因此得出结论的不确定性),但我没有成功。 a)期刊对数据质量没有政策,b)其他审稿人对稿件进行了两次重大改写,对此表示很少或没有关注的情况令我感到困扰。评审过程的最终结果比我没有担任评审员的情况要差,但是如果作者真正了解其数据固有的不确定性,那么本论文可以做得更好。

水文监测界的数据质量标准远远高于学术界。

与以前相比,现代监控技术更易于使用且更加安全。硬件供应商试图通过提供促销材料来使自己在市场中脱颖而出,这使得获得良好的数据似乎就像购买正确的技术一样简单。买一些玩具,把它们粘在河里,写论文。

如果这么简单,那就没问题了。

水文学家需要选择最适合监测目标和当地条件的任何给定组合的方法,技术和技术。然后,工作才真正开始。它不像将电源连接到电子设备那样简单。不幸的是,研究生几乎从未接受过收集良好数据所需的水文原理和实践方面的培训。

即使是最有信誉的机构提供的数据,在如何解释数据方面也有局限性。许多学者接受这样的数据是“真相”,而不是将良好的科学与垃圾科学区分开来的健康的怀疑态度令人深感不安。

这里确实存在两个问题,一个是为了科学调查的目的而收集数据的能力,另一个是评估3的适用性。rd 政党数据用于科学研究。

Much of the 水文数据 在 the public domain has been collected to meet a broad variety of societal needs. Collecting data with the precision required to reliably isolate hydrological processes is more expensive than collecting data with a lower precision. All monitoring agencies operate to the 最高负担得起的标准. This optimization of the trade-off between affordability 和 uncertainty is fundamentally an exercise 在 risk management. The risk of an unknown researcher coming to a false conclusion does not carry much weight 在 a manager’s assessment of how much money should be spent 上 technology, training, field work 和 other direct expenses of the hydrometric program. 买者自负.

在试图理解水文黑匣子的过程中,我们查看了系统输入和系统输出,然后推断了两者之间的过程。我们可以通过一些相对简单的过程描述轻松地解释输入和输出之间的大多数关系。就大多数水文数据来源固有的不确定性而言,这些过程的影响很大。

简单的工作已经完成。

准确而准确地获取数据以扩展我们的水文学知识将需要更多地关注和关注数据的收集方式。

改善我们对水文认识的先进性,需要适合目的的数据。对于研究人员来说,a)不知道数据的不确定性是什么,b)不在乎数据的不确定性告诉我,水文测量界必须更好地向学术界解释我们的技术。 。

“质量绝非偶然;这始终是明智努力的结果。” – John Ruskin

要了解有关如何在水文数据中创建质量的更多信息,请阅读:
水文监测计划的5个基本要素


白皮书:水文监测计划的5个基本要素

水文监测的最佳做法,标准和技术已发生变化。了解现代方法如何提高水信息的可用性,可靠性和准确性。

10条留言
  • Ferdinand Quiñones
    发表于2013年7月30日上午11:00

    尊敬的斯图:布拉沃(Bravo),您对许多学术界不熟悉我们惯用质量标准的研究人员使用明显有缺陷的数据进行的敏锐分析。最初,我是一名水文工程师,在美国地质调查局(USGS)的发展是有幸成长的,并经历了多个职位,在这些职位中,数据收集(尤其是流量和水质)是关键因素。我认为USGS标准仍然不错,尽管自1994年退休以来我对该机构的管理方式有所担忧。自那时以来,作为水资源问题的顾问,我遇到过许多类似的情况,研究人员只是采取了捷径发表论文而不会在学术界灭亡。同行评审系统并没有真正起作用,因为许多评审员都在学术界内部,几乎没有或没有实践经验和数据收集质量控制经验。

    我认为您的博客很棒。我确实发布了一个关于波多黎各水资源的教育网页(现在是西班牙语),这是我的故乡,在那儿我仍在进行一些有关PR中水资源问题的咨询。链接是 http://www.recursosaguapuertorico.com/.

    亲切地

    费迪南德·奎尼翁斯

    • Stu Hamilton
      发表于2013年8月6日下午6:36

      嗨,费迪南德,

      不知何故,我们需要找到一种方法,超越我们要去的地方,即可以充分利用数据中的信息,而不会受到所有数据固有的虚假信息的污染。为了跟进您对USGS数据标准的引用,我完全相信90%用例的USGS数据–麻烦的是10%用例。在某种程度上,数据是高度可靠的,但是在每个数据集中,都有一定程度的数据不可靠。用于洪水频率分析的目的–(通常)没有问题,但可以推断出某个给定的峰与另一个给定的峰由于过程水文学而不同–您如何将其与额定曲线的修改/更新的结果区分开?

      我可能是错的,但我认为应该由像您这样的人来找到向水文学界解释水文学的方法。如果我们成功做到了这一点,那么也许可以接受水文学原理和实践方面的正规培训,这是水文学家资格认证的强制性要求。

      问题是找到一个可以站立的肥皂盒来传达我们的信息。我曾尝试在水文期刊上发表评论和文章(例如下面的引文),但没有太大的成功。有时我想知道人们是否读了我写的东西,好像我在说水文数据是不可信的。恰恰相反,我见过的几乎每个数据提供者都怀着一种热衷于获得高质量的热情。唯一不好的是无知的人会使用该数据并不恰当地使用它。

      让我们一直保持对话,直到我们提出解决问题的计划。

      汉密尔顿和R.D. Moore。 2012年。“量化水文记录中的不确定性。”加拿大水资源杂志,37(1):1-19。

      Hamilton,S.,2008年。“加拿大低流量水文数据的不确定性来源。”加拿大水资源杂志,33(2):125-136。

      Hamilton,S.,2007年。“特邀评论:完成从数据到决策再到数据的循环。”水文过程,21:3105-3106。 DOI:10.1002 / hyp.6860

      斯图

  • Gerald Dörflinger
    2013年7月31日上午2:10发布

    嗨,斯图,
    感谢您的这些想法,我是水文数据提供者,您经常会碰到很多困扰我的问题。我特别喜欢您的提及“最高负担得起的标准” –可以补充说,通常不是由从事基础工作的机构来决定可用资源。因此,您最终将用自己的金钱和员工尽力而为,这最终成为限制数据质量的因素。关于长期机构基础上水文数据收集的学者和知识,我想说的是很少有人知道实际问题。许多人都知道进行短期的有限科学研究,他们自己或与学生一起做这项工作,但这与处理大型网络试图保持数十年质量的大型活动截然不同。“non-scientist”工作人员(“non-scientist” staff here –我的工作做得很棒)。我不’没有时间收集我的想法以得到更长的答复…无论如何,请继续努力,非常感谢!
    杰拉尔德

    • Stu Hamilton
      发表于2013年8月6日下午6:36

      嗨杰拉尔德,

      数据提供者必须在分配给他们的资源范围内工作,这是绝对正确的,因此,有关目的适用性的决策被抽象到预算过程中,在此过程中,决策者基本上不了解其决策的影响。在此资源范围内,必须做出进一步的折衷:我是用这笔钱来运行更多质量较低的仪表,还是运行质量较高的仪表?

      有一种循环逻辑阻碍了水文学领域的进步。我们缺乏在水景中填补数据空白的预测能力–因此,我们需要更多的量表,但是通过使用更多的量表(因此,减少技术和减少每个量表的站点访问量)来稀释资源,则会降低我们提高预测技能的能力。

      我们根深蒂固地认为我们的数据只需要和过去一样好。我认为它需要更好。

      连续性方程:输入等于输出+蓄水变化(Qi = Qo + DS / dt)是众所周知的,并且是我们几乎了解或认为我们知道的有关水文学的一切基础。
      可以说,我们已经学到了所有具有未知不确定性的传统数据。几乎任何水文模型都可以解释基于输入的输出中80%的可变性。解决最后20%的可变性将需要比当前可用的更好的数据和元数据。这意味着研究界需要学习如何收集好的数据,而水文测量界需要学习如何传达其数据的局限性以进行精确的工作。

      我能想到的唯一方法就是保持对话的进行。

      斯图

  • Rick Ross
    发表于2013年8月21日下午12:07

    谢谢您的文章Stu。作为CWRA的执行董事,我很感激并回应您的许多观点。CWRA倡导良好的水文记录已有很长的历史。如您所指出的那样,每个特定案例都需要其自己的特定解决方案,即更好的仪表或更多仪表。陌生人经常无法正确理解质量分析的数据,因此经常需要对它们进行误解。

    不幸的是,这不限于水文数据。许多机构和公司产生的与自己的生产和记录相关的统计记录经常与不熟悉影响生产或公司结果的外部因素的人使用类似的统计记录与其他类似的公司进行比较,从而容易导致误诊和误导努力。

    我们特别关注的是水文记录和用法,但是数据虚假化的一般原理是一个通用常数。

    继续努力,我真的很喜欢这篇文章“水文监测计划的五个基本要素”

    • Stu
      发表于2013年8月26日下午3:57

      嗨里克,
      我当然同意,虚假信息是许多类型的数据中的问题。的概念‘due diligence’适用于任何数据提供者,并且‘caveat emptor’ to any data user.

      究竟如何适当地作为水文数据提供者以及如何适当地谨慎作为水文数据用户是需要做些工作的部分。

      水文数据产生的过程很复杂,并且涉及通过非线性额定曲线的转换。

      任何大型水文数据集中的误差分布都是高度偏斜的,大多数数据非常准确,但是少量数据可能具有相当大的误差。不幸的是,在稀疏测量区域中,极端情况经常会产生最大的误差,并且对最终用户的决策影响最大。

      凭借数据提供者和最终用户的成员资格,CWRA可以很好地在这些问题上发挥领导作用。

  • Bob Halliday
    发表于2013年8月21日下午6:18

    你好,斯图,

    这是一个有用的评论。作为接受同行评审意见的人,我有非常有帮助的意见,而且绝对是愚蠢的。一世’ve还进行了一次审查,其中我试图指导作者处理数据不确定性问题,很显然他没有’掌握我开车的意思。

    我同意专业水文数据收集器比兼职数据收集器做得更好。数据问题的一部分源于专业人士在记录中留下空白,而业余爱好者则在没有深思熟虑的情况下填补了空白。

    另一个问题在于我们对不确定性的处理。我们想认为一次放电测量的不确定度为+/- 5%,但是现在这意味着年度记录中来自阶段流量关系非常稳定或关系很差的站点中的不确定性。我们需要通过简化流量每日记录中的总体不确定性估算来帮助试图从浅层数据进行深入分析的人们。

    鲍勃

    • Stu
      发表于2013年8月26日下午4:43

      嗨鲍勃,
      间隙填充的流量重建主题是一个重要的问题。数据空白是不可避免的,可以说,负责数据集的水文学家是最了解水流估算的人。

      但是,与主要数据生成过程相比,从附近的测量仪或气候站传输信息以提供这些估计的过程中相对较少。

      可能存在指示差距已填补的元数据,但几乎没有足够的信息可供最终用户判断估计的质量。

      在不确定性这一主题上,我要挑战的一件事是关于总不确定性(例如5%)的估计甚至有用的观点。可能大多数时候数据的错误率都很低,某些时候数据的错误率很高,偶尔也有很高的错误率。我会说,如果所有平均值的总和为正负5%,则几乎无关紧要。通常,对决策影响最大的是极端数据,而正是这些数据最有可能产生非常高的误差。

      我还认为,除了不确定性在数据值之间不对称之外,它在数据值内也可能不对称。利用环境数据有时‘less wrong’留下未校正的偏差,而不是校正定义不充分的偏差。一个示例可能是系统性的回水效应,其略小于根据使用位移校正的协议触发校正的幅度。

      显然,在开发水文不确定度信息传递方法的过程中,还有很多工作要做,这无疑会带来更好的信息和决策。

      我喜欢您正在考虑协助人们进行水文数据分析的方法。我想听听您的想法,以找出‘fitness for purpose’.

      足以触发警告的数据可能不足以高置信度检测到气候变化信号。一个不了解数据提供者的人如何分辨差异?

  • Frederick Ross
    发表于2013年8月22日下午4:19

    这是一篇有关错误信息的写得很好的文章,如果使用不适合其用途的数据,它可能会成为常识。

    不幸的是,经济和风险会影响数据的质量和质量记录的可用性。结合充分了解情况的分析人员,这将使虚假信息无益。

    正确地掌握数据及其质量是解释的基本要素,这可能导致得出具有深远影响和错误结论的结论。

  • Stu
    发表于2013年8月26日下午5:39

    嗨,弗雷德里克,
    我认为问题在于‘对数据及其质量有适当的了解’数据共享技术的进步,加上联邦政府不断减少的监测作用以及其他政府机构和私营部门的作用不断扩大,是因为数据搜索和发现将变得越来越分散。有会变得很麻烦‘proper knowledge’对于任何给定项目,如果有几个小型数据提供者,那么您的数据。

    我们需要做好准备,以充分利用与问题相关的所有数据集的信息内容,而不会干扰信息。

    需要将问题视为风险的总和:
    1.错误的数据污染信息导致错误决策的风险是什么?
    2.由于担心数据可能无法提供信息而忽视其风险是什么?
    3.由于数据提供者担心数据使用不当,会ho积/无法访问良好数据的风险是什么?
    4.决策者可以进一步破坏联邦网络的风险是什么’t区分质量/’fitness for purpose’来自质量较低的网络?
    5.发生什么风险‘最便宜的生存’通过没有足够水文培训/标准/质量保证的机构部署的技术可以通过互联网获得吗?

    我不’不知道这些风险是什么,但确实让我有些害怕。问题是我们该如何减少这些风险?