本福特定律,也称为本福特法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。
本福特定律说明在b进位制中,以数n起头的数出现的机率为logb(n + 1) − logb(n) .本福特定律不但适用于个位数字,连多位的数也可用。
d | 第1位占比 | 第2位占比 | 第3位占比 | 第4位占比 |
---|---|---|---|---|
0 | 0.11968 | 0.10178 | 0.10018 | |
1 | 0.30103 | 0.11389 | 0.10138 | 0.10014 |
2 | 0.17609 | 0.10882 | 0.10097 | 0.10010 |
3 | 0.12494 | 0.10433 | 0.10057 | 0.10006 |
4 | 0.09691 | 0.10031 | 0.10018 | 0.10002 |
5 | 0.07918 | 0.09668 | 0.09979 | 0.09998 |
6 | 0.06695 | 0.09337 | 0.09940 | 0.09994 |
7 | 0.05799 | 0.09035 | 0.09902 | 0.09990 |
8 | 0.05115 | 0.08757 | 0.09864 | 0.09986 |
9 | 0.04576 | 0.08500 | 0.09827 | 0.09982 |
合计 | 1.00000 | 1.00000 | 1.00000 | 1.00000 |
本福德定律的含义如下
一组随机发生的数字,各个数字的首位存在一定规律,越小的数字出现的比率越高,既0出现的概率是100%(实际上首位不可能是0,因此我们可以认为其出现的概率是100%),1出现的概率是31%,2出现的概率是18%,依次类推,9出现的概率只有不到5%。
本福德定律的应用条件是:
(1)数据不能是规律排序的,比如发票编号、身份证号码等;
(2)数据不能经过人为修饰。
AI 回答
本福特定律(Benford's Law),也称为第一数字定律或显著数字定律,是一个统计学现象,它描述了在许多真实世界的数据集中,首位非零数字出现的频率并不是均匀分布的。相反,较小的数字更有可能作为数据的第一位数字出现。
本福特定律的内容
根据本福特定律,对于一个符合该定律的数据集,首位数字是 (d)((d = 1, 2, ..., 9))的概率 (P(d)) 可以用以下公式来表示:
[ P(d) = \log_{10} \left(1 + \frac{1}{d}\right) ]
这个公式意味着首位数字为1的概率大约是30.1%,而首位数字为9的概率则只有4.6%左右。随着数字的增大,其作为首位数字出现的概率逐渐减小。
特征和适用范围
-
自然增长的数据:本福特定律适用于那些经历了指数增长或者自然积累过程的数据集,例如人口数量、财务报表中的销售额、股票价格等。
-
广泛的数据源:它可以应用于多种类型的数据集合,包括但不限于账目记录、选举结果、科学测量值等。
-
不受单位影响:本福特定律的一个有趣特性是它的尺度不变性,即无论使用何种单位(如米还是英尺),只要数据本身满足条件,它都会遵循相同的分布规律。
应用领域
-
欺诈检测:由于人为伪造的数据往往不符合本福特定律,因此它可以被用来检测会计造假、选票舞弊等问题。如果实际数据与预期的本福特分布有显著偏差,这可能是存在异常行为的一个指示。
-
数据分析和验证:用于验证数据集的真实性和完整性,尤其是在审计和合规检查中。
-
学术研究:帮助研究人员理解某些自然现象背后的数学原理,并且可以作为一种工具来测试理论模型是否合理。
局限性
并非所有数据集都适合用本福特定律进行分析。一些情况下,数据可能因为受到特定规则限制、范围狭窄、人为控制或其他因素而不符合本福特定律。此外,当数据集规模较小时,随机波动可能会导致偏离本福特定律的现象。
总之,本福特定律提供了一种有用的框架来理解和分析大量真实世界数据的结构特征,但它并不是万能的,应用时需要谨慎考虑数据的具体特性和背景信息。
发表评论