带有图形的论文。

说谎统计:每天都有2个午夜&每个午夜有2天

“很容易撒谎。没有统计数字很难说出真相。”安德烈斯·邓克尔(Andrejs Dunkel)。

时间序列统计很尴尬。时间序列统计绝对必要。他们从大量数据中提炼出基本事实。最有用的统计信息是非常简单的概念,例如最大值,最小值,均值和总计。

至少具有6年级以上教育的任何人都可以确切解释应如何计算这些统计数据。对?

也许不吧。

有护栏问题的问题。

哪一根线是一根高高耸立的篱笆墙–两者都在。统计间隔之间的边界可能是每小时值的小时顶部,每天值的午夜或年度值的除夕行程。确切地说,您如何处理除夕风暴,该风暴在上一个正好在12-31 24:00:00产生上一年的最大排放量,并在下一个恰好在01-01 00:00:00产生下一年的最大排放量。由于午夜的特殊性,它既是前一年的最后一个值又是后一年的第一个值,既是一个值。在一组瞬时年峰值流量数据中,该值将连续两年重复。但是,将两个值都包含在极端频率分析中将是错误的。

存在时间加权平均值的问题。

很多人以前在 电子表格 只需使用“平均值”功能即可提供算术平均值(总和除以计数)。

一种更可靠的方法是,例如,使用以下方法计算曲线下的面积: 梯形积分 并按时间划分。梯形技术基于数据是连续的假设。这意味着,如果bin边界(例如午夜)没有值,则必须通过 插补。这是不直观的。如果没有午夜值,则算法必须“查看”之前和之后的时间间隔,以找到用于估计午夜值的值。这可能意味着来自最近邻居的数据可能会对统计结果产生影响。

存在使统计技术与数据类型匹配的问题。

通过梯形积分和单位换算(例如,从立方米每秒到每天百万升)获得排放数据的总计算值。降水数据的总和计算为该时间间隔内的净积累,没有单位换算。

有时间戳记的问题。

在许多辖区,通常将时间戳记放在间隔的末尾。这意味着为一月初计算的值的时间戳记为01-01 24:00:00。这反过来可能会被报告并绘制为01-02 00:00:00(与大多数计算机系统完全忽略的24:00:00完全相同的时间),因此在表格报告中,“元旦”统计信息将丢失或是前一年除夕的值。其他辖区通过选择时间戳记作为间隔的开始来处理此问题。这意味着在比较一个机构与另一个机构的数据时,您需要知道他们选择了哪种数据存储约定。在这两种情况下,数据都可能以阶梯图的形式绘制。在某些管辖区中,他们选择在平均时间(例如中午)绘制平均值,并将时间序列绘制为连续图。这对于每日统计数据非常直观,但对于每月和每年的统计数据却有些奇怪。为时间序列统计信息分配有效持续时间的方法很少使用(即明确声明统计信息涵盖的间隔的开始和结束)。将统计数据表示为持续时间可以解决24:00:00 = 00:00:00的问题,但是大多数数据管理系统都是在难以处理持续时间数据的时代开发的。

有教室问题的问题。

水文学家通常会对统计资料进行统计(例如,取每日平均值)。课堂问题仅仅是学校的平均水平不同于所有教室的平均水平。通常,使用时间加权方法梯形积分技术来解决时间序列统计的课堂问题。理论上,时间加权平均值的时间加权平均值应与基础单位值的时间加权平均值相同。但是,由于数据中出现间隙以及使用业务规则来在不同的时间范围内如何处理这些间隙,可能会有差异。

存在时区问题。

时区 数据记录器的日期可能是UTC,但每日统计信息的报告是本地标准时间。以UTC计算统计信息并将时间偏移应用于结果与将时间偏移应用于数据然后计算统计信息不同。

在大多数情况下,时间序列统计信息的行为符合您的预期。

这使我们所有人陷入一种自满的感觉,以为我们理解他们。不幸的是,在某些极端情况下,需要仔细关注案例的详细信息,以正确理解统计数据旨在表示的基本事实。

1条评论
  • Ferdinand Quiñones
    回复
    发表于2013年11月28日下午12:20

    斯图:再次问候。我正在尝试找到一个Excel子例程或公式来集成可变时间间隔流量(Q)和悬浮泥沙(SS)数据,以计算流控站SS的加权日平均排放量。 SS数据在一个方程中。通常,如果量具上的Q的瞬时值在时间上(每15分钟)是均匀的,则很容易进行加权积分。当为了提高计算精度而触发量规处的位移台传感器每5或10分钟读取一次读数时会出现问题,这取决于位移台的变化,而不是按预测的间隔。当您有很多天时,一天的线性加权计算公式将不起作用,因为您可以从最少96点(每15分钟)到多达288点(每5分钟)获得。当您从一天到另一天重复公式时,会出现问题,因为范围会变化。如果有人在Excel公式中弄清楚了这一点,我将不胜感激。谢谢。

    费迪南德·奎尼翁斯(PE)

发表评论

评论
名称
电子邮件
网站