PHP实现简单线性回归数据研究工具

日期：07-13 来源：中国设计秀作者：cnwebshow.com

概念Cve中国设计秀
Cve中国设计秀
　　简单线性回归建模背后的基本目标是从成对的X值和Y值（即X和Y测量值）组成的二维平面中找到最吻合的直线。一旦用最小方差法找到这条直线，就可以执行各种统计测试，以确定这条直线与观测到的Y值的偏离量吻合程度。Cve中国设计秀
Cve中国设计秀
　　线性方程（y = mx + b）有两个参数必须根据所提供的X和Y数据估算出来，它们是斜率（m）和 y 轴截距（b）。一旦估算出这两个参数，就可以将观测值输入线性方程，并观察方程所生成的Y预测值。Cve中国设计秀
Cve中国设计秀
　　要使用最小方差法估算出m和b参数，就要找到 m 和 b 的估计值，使它们对于所有的X值得到的Y值的观测值和预测值最小。观测值和预测值之差称为误差（yi- (mxi+ b)），并且，如果对每个误差值都求平方，然后求这些残差的和，其结果是一个被称为预测平方差的数。使用最小方差法来确定最吻合的直线涉及寻找使预测方差最小的m和b的估计值。Cve中国设计秀
Cve中国设计秀
　　可以用两种基本方法来找到满足最小方差法的估计值m和b。第一种方法，可以使用数值搜索过程设定不同的m和b值并对它们求值，最终决定产生最小方差的估计值。第二种方法是使用微积分找到用于估算m和b的方程。我不打算深入讨论推导出这些方程所涉及的微积分，但我确实在 SimpleLinearRegression 类中使用了这些分析方程，以找到m和b的最小平方估计值（请参阅 SimpleLinearRegression 类中的 getSlope() 和 getYIntercept 方法）。Cve中国设计秀
Cve中国设计秀
　　即使拥有了可以用来找到m和b的最小平方估计值的方程，也并不意味着只要将这些参数代入线性方程，其结果就是一条与数据良好吻合的直线。这个简单线性回归过程中的下一步是确定其余的预测方差是否可以接受。Cve中国设计秀
Cve中国设计秀
　　可以使用统计决策过程来否决“直线与数据吻合”这个备择假设。这个过程基于对 T 统计值的计算，使用概率函数求得随机大的观测值的概率。正如第 1 部分所提到的， SimpleLinearRegression 类生成了为数众多的汇总值，其中一个重要的汇总值是 T 统计值，它可以用来衡量线性方程与数据的吻合程度。如果吻合良好，则 T 统计值往往是一个较大的值；如果 T 值很小，就应该用一个缺省模型代替您的线性方程，该模型假定Y值的平均值是最佳预测值（因为一组值的平均值通常可以是下一个观测值的有用的预测值）。Cve中国设计秀
Cve中国设计秀
　　要测试 T 统计值是否大到可以不用Y值的平均值作为最佳预测值，需要计算随机获得 T 统计值的概率。如果概率很低，那就可以不采用平均值是最佳预测值这一无效假设，并且相应地可以确信简单线性模型是与数据良好吻合的。（有关计算 T 统计值概率的更多信息，请参阅第 1 部分。）Cve中国设计秀
Cve中国设计秀
　　回过头讨论统计决策过程。它告诉您何时不采用无效假设，却没有告诉您是否接受备择假设。在研究环境中，需要通过理论参数和统计参数来建立线性模型备择假设。Cve中国设计秀
Cve中国设计秀
　　您将构建的数据研究工具实现了用于线性模型（T 测试）的统计决策过程，并提供了可以用来构造理论和统计参数的汇总数据，这些参数是建立线性模型所需要的。数据研究工具可以归类为决策支持工具，供知识工作者在中小规模的数据集中研究模式。Cve中国设计秀
Cve中国设计秀
　　从学习的角度来看，简单线性回归建模值得研究，因为它是理解更高级形式的统计建模的必由之路。例如，简单线性回归中的许多核心概念为理解多次回归（Multiple Regression）、要素分析（Factor Analysis）和时间序列（Time Series）等建立了良好的基础。Cve中国设计秀
Cve中国设计秀
　　简单线性回归还是一种多用途的建模技术。通过转换原始数据（通常用对数或幂转换），可以用它来为曲线数据建模。这些转换可以使数据线性化，这样就可以使用简单线性回归来为数据建模。所生成的线性模型将被表示为与被转换值相关的线性公式。Cve中国设计秀
Cve中国设计秀
　　概率函数Cve中国设计秀
Cve中国设计秀
　　在前一篇文章中，我通过交由 R 来求得概率值，从而避开了用 PHP 实现概率函数的问题。我对这个解决方案并非完全满意，因此我开始研究这个问题：开发基于 PHP 的概率函数需要些什么。Cve中国设计秀
Cve中国设计秀
　　我开始上网查找信息和代码。一个两者兼有的来源是书籍Numerical Recipes in C中的概率函数。我用 PHP 重新实现了一些概率函数代码（ gammln.c 和 betai.c 函数），但我对结果还是不满意。与其它一些实现相比，其代码似乎多了些。此外，我还需要反概率函数。Cve中国设计秀
Cve中国设计秀
　　幸运的是，我偶然发现了 John Pezzullo 的 Interactive Statistical Calculation。John 关于概率分布函数的网站上有我需要的所有函数，为便于学习，这些函数已用 JavaScript 实现。Cve中国设计秀
Cve中国设计秀
　　我将 Student T 和 Fisher F 函数移植到了 PHP。我对 API 作了一点改动，以便符合 Java 命名风格，并将所有函数嵌入到名为 Distribution 的类中。该实现的一个很棒的功能是 doCommonMath 方法，这个库中的所有函数都重用了它。我没有花费力气去实现的其它测试（正态测试和卡方测试）也都使用 doCommonMath 方法。Cve中国设计秀
Cve中国设计秀
　　这次移植的另一个方面也值得注意。通过使用 JavaScript，用户可以将动态确定的值赋给实例变量，譬如：Cve中国设计秀
Cve中国设计秀
Cve中国设计秀

Cve中国设计秀
var PiD2 = pi() / 2Cve中国设计秀

Cve中国设计秀
　　在 PHP 中不能这样做。只能把简单的常量值赋给实例变量。希望在 PHP5 中会解决这个缺陷。Cve中国设计秀
Cve中国设计秀
　　请注意清单 1中的代码并未定义实例变量 — 这是因为在 JavaScript 版本中，它们是动态赋予的值。Cve中国设计秀
Cve中国设计秀
　　清单 1. 实现概率函数Cve中国设计秀
Cve中国设计秀
Cve中国设计秀

Cve中国设计秀
＜?phpCve中国设计秀
Cve中国设计秀
// Distribution.phpCve中国设计秀
Cve中国设计秀
// Copyright John PezulloCve中国设计秀
// Released under same terms as PHP.Cve中国设计秀
// PHP Port and OO'fying by Paul MeagherCve中国设计秀
Cve中国设计秀
class Distribution {Cve中国设计秀
Cve中国设计秀
function doCommonMath($q, $i, $j, $b) {Cve中国设计秀
Cve中国设计秀
$zz = 1;Cve中国设计秀
$z  = $zz;Cve中国设计秀
$k  = $i;Cve中国设计秀
Cve中国设计秀
Cve中国设计秀
while($k ＜= $j) {Cve中国设计秀
$zz = $zz * $q * $k / ($k - $b);Cve中国设计秀
$z  = $z + $zz;Cve中国设计秀
$k  = $k + 2;Cve中国设计秀
}Cve中国设计秀
return $z;Cve中国设计秀
}Cve中国设计秀
Cve中国设计秀
function getStudentT($t, $df) {Cve中国设计秀
Cve中国设计秀
$t  = abs($t);Cve中国设计秀
$w  = $t  / sqrt($df);Cve中国设计秀
$th = atan($w);Cve中国设计秀
Cve中国设计秀
if ($df == 1) {Cve中国设计秀
return 1 - $th / (pi() / 2);Cve中国设计秀
}Cve中国设计秀
Cve中国设计秀
$sth = sin($th);Cve中国设计秀
$cth = cos($th);Cve中国设计秀
Cve中国设计秀
if( ($df % 2) ==1 ) {Cve中国设计秀
returnCve中国设计秀
1 - ($th + $sth * $cth * $this-＞doCommonMath($cth * $cth, 2, $df - 3, -1))Cve中国设计秀
/ (pi()/2);Cve中国设计秀
} else {Cve中国设计秀
return 1 - $sth * $this-＞doCommonMath($cth * $cth, 1, $df - 3, -1);Cve中国设计秀
}Cve中国设计秀
Cve中国设计秀
}Cve中国设计秀
Cve中国设计秀
function getInverseStudentT($p, $df) {Cve中国设计秀
Cve中国设计秀
$v =  0.5;Cve中国设计秀
$dv = 0.5;Cve中国设计秀
$t  = 0;Cve中国设计秀
Cve中国设计秀
while($dv ＞ 1e-6) {Cve中国设计秀
$t = (1 / $v) - 1;Cve中国设计秀
$dv = $dv / 2;Cve中国设计秀
if ( $this-＞getStudentT($t, $df) ＞ $p) {Cve中国设计秀
$v = $v - $dv;Cve中国设计秀
} else {Cve中国设计秀
$v = $v + $dv;Cve中国设计秀
}Cve中国设计秀
}Cve中国设计秀
return $t;Cve中国设计秀
}Cve中国设计秀
Cve中国设计秀
Cve中国设计秀
function getFisherF($f, $n1, $n2) {Cve中国设计秀
// implemented but not shownCve中国设计秀
}Cve中国设计秀
Cve中国设计秀
function getInverseFisherF($p, $n1, $n2) {Cve中国设计秀
// implemented but not shownCve中国设计秀
}Cve中国设计秀
Cve中国设计秀
}Cve中国设计秀
?＞Cve中国设计秀

Cve中国设计秀
概念Cve中国设计秀
Cve中国设计秀
　　简单线性回归建模背后的基本目标是从成对的X值和Y值（即X和Y测量值）组成的二维平面中找到最吻合的直线。一旦用最小方差法找到这条直线，就可以执行各种统计测试，以确定这条直线与观测到的Y值的偏离量吻合程度。Cve中国设计秀
Cve中国设计秀
　　线性方程（y = mx + b）有两个参数必须根据所提供的X和Y数据估算出来，它们是斜率（m）和 y 轴截距（b）。一旦估算出这两个参数，就可以将观测值输入线性方程，并观察方程所生成的Y预测值。Cve中国设计秀
Cve中国设计秀
　　要使用最小方差法估算出m和b参数，就要找到 m 和 b 的估计值，使它们对于所有的X值得到的Y值的观测值和预测值最小。观测值和预测值之差称为误差（yi- (mxi+ b)），并且，如果对每个误差值都求平方，