離散因變量和受限因變量模型
通常的經(jīng)濟(jì)計(jì)量模型都假定因變量是連續(xù)的,但是在現(xiàn)實(shí)的經(jīng)濟(jì)決策中經(jīng)常面臨許多選擇問題。人們需要在可供選擇的有限多個(gè)方案中作出選擇,與通常被解釋變量是連續(xù)變量的假設(shè)相反,此時(shí)因變量只取有限多個(gè)離散的值。例如,人們對(duì)交通工具的選擇:地鐵、公共汽車或出租車;投資決策中,是投資股票還是房地產(chǎn)。以這樣的決策結(jié)果作為被解釋變量建立的計(jì)量經(jīng)濟(jì)模型,稱為離散被解釋變量數(shù)據(jù)計(jì)量經(jīng)濟(jì)學(xué)模型(modelswithdiscretedependentvariables),或者稱為離散選擇模型(discretechoicemodel,DCM)。
在實(shí)際中,還會(huì)經(jīng)常遇到因變量受到某種限制的情況,這種情況下,取得的樣本數(shù)據(jù)來自總體的一個(gè)子集,可能不能完全反映總體。這時(shí)需要建立的經(jīng)濟(jì)計(jì)量模型稱為受限因變量模型(limiteddependentvariablemodel)。這兩類模型經(jīng)常用于調(diào)查數(shù)據(jù)的分析中。
§7.1二元選擇模型在離散選擇模型中,最簡(jiǎn)單的情形是在兩個(gè)可供選擇的方案中選擇其一,此時(shí)被解釋變量只取兩個(gè)值,稱為二元選擇模型(binarychoicemodel)。在實(shí)際生活中,我們經(jīng)常遇到二元選擇問題。例如,在買車與不買車的選擇中,買車記為1,不買記為0。是否買車與兩類因素有關(guān)系:一類是車本身所具有的屬性,如價(jià)格、型號(hào)等;另一類是決策者所具有的屬性如收入水平、對(duì)車的偏好程度等。如果我們要研究是否買車與收入之間的關(guān)系,即研究具有某一收入水平的個(gè)體買車的可能性。因此,二元選擇模型的目的是研究具有給定特征的個(gè)體作某種而不作另一種選擇的概率。
為了深刻地理解二元選擇模型,首先從最簡(jiǎn)單的線性概率模型開始討論。線性概率模型的回歸形式為:(7.1.1)其中:N是樣本容量;k是解釋變量個(gè)數(shù);xj為第j個(gè)個(gè)體特征的取值。例如,x1表示收入;x2表示汽車的價(jià)格;x3表示消費(fèi)者的偏好等。設(shè)yi表示取值為0和1的離散型隨機(jī)變量:式(7.1.1)中ui為相互獨(dú)立且均值為0的隨機(jī)擾動(dòng)項(xiàng)。7.1.1線性概率模型及二元選擇模型的形式
令pi=P(yi=1),那么1-pi=P(yi=0),于是(7.1.2)又因?yàn)镋(ui)=0,所以E(yi)=xi?,xi=(x1i,x2i,…,xki),?=(?1,?2,…,?k)?,從而有下面的等式:(7.1.3)
式(7.1.3)只有當(dāng)xi?的取值在(0,1)之間時(shí)才成立,否則就會(huì)產(chǎn)生矛盾,而在實(shí)際應(yīng)用時(shí)很可能超出這個(gè)范圍。因此,線性概率模型常常寫成下面的形式:(7.1.4)此時(shí)就可以把因變量看成是一個(gè)概率。那么擾動(dòng)項(xiàng)的方差為:(7.1.5)或(7.1.6)
由此可以看出,誤差項(xiàng)具有異方差性。異方差性使得參數(shù)估計(jì)不再是有效的,修正異方差的一個(gè)方法就是使用加權(quán)最小二乘估計(jì)。但是加權(quán)最小二乘法無法保證預(yù)測(cè)值?在(0,1)之內(nèi),這是線性概率模型一個(gè)嚴(yán)重的弱點(diǎn)。由于上述問題,我們考慮對(duì)線性概率模型進(jìn)行一些變換,由此得到下面要討論的模型。假設(shè)有一個(gè)未被觀察到的潛在變量yi*,它與xi之間具有線性關(guān)系,即(7.1.7)其中:ui*是擾動(dòng)項(xiàng)。yi和yi*的關(guān)系如下:(7.1.8)
yi*大于臨界值0時(shí),yi=1;小于等于0時(shí),yi=0。這里把臨界值選為0,但事實(shí)上只要xi包含有常數(shù)項(xiàng),臨界值的選擇就是無關(guān)的,所以不妨設(shè)為0。這樣(7.1.9)其中:F是ui*的分布函數(shù),要求它是一個(gè)連續(xù)函數(shù),并且是單調(diào)遞增的。因此,原始的回歸模型可以看成如下的一個(gè)回歸模型:(7.1.10)即yi關(guān)于它的條件均值的一個(gè)回歸。
分布函數(shù)的類型決定了二元選擇模型的類型,根據(jù)分布函數(shù)F的不同,二元選擇模型可以有不同的類型,常用的二元選擇模型如表7.1所示:表7.1常用的二元選擇模型ui*對(duì)應(yīng)的分布分布函數(shù)F相應(yīng)的二元選擇模型標(biāo)準(zhǔn)正態(tài)分布Probit模型邏輯分布Logit模型極值分布Extreme模型
二元選擇模型一般采用極大似然估計(jì)。似然函數(shù)為(7.1.11)即(7.1.12)對(duì)數(shù)似然函數(shù)為(7.1.13)7.1.2二元選擇模型的估計(jì)問題
對(duì)數(shù)似然函數(shù)的一階條件為(7.1.14)其中:fi表示概率密度函數(shù)。那么如果已知分布函數(shù)和密度函數(shù)的表達(dá)式及樣本值,求解該方程組,就可以得到參數(shù)的極大似然估計(jì)量。例如,將上述3種分布函數(shù)和密度函數(shù)代入式(7.1.14)就可以得到3種模型的參數(shù)極大似然估計(jì)。但是式(7.1.14)通常是非線性的,需用迭代法進(jìn)行求解。二元選擇模型中估計(jì)的系數(shù)不能被解釋成對(duì)因變量的邊際影響,只能從符號(hào)上判斷。如果為正,表明解釋變量越大,因變量取1的概率越大;反之,如果系數(shù)為負(fù),表明相應(yīng)的概率將越小。
例7.1二元選擇模型實(shí)例考慮Greene給出的斯佩克特和馬澤歐(1980)的例子,在例子中分析了某種教學(xué)方法對(duì)成績(jī)的有效性。因變量(GRADE)代表在接受新教學(xué)方法后成績(jī)是否改善,如果改善為1,未改善為0。解釋變量(PSI)代表是否接受新教學(xué)方法,如果接受為1,不接受為0。還有對(duì)新教學(xué)方法量度的其他解釋變量:平均分?jǐn)?shù)(GPA)和測(cè)驗(yàn)得分(TUCE),來分析新的教學(xué)方法的效果。
(1)模型的估計(jì)估計(jì)二元選擇模型,從EquationSpecification對(duì)話框中,選擇Binary估計(jì)方法。在二元模型的設(shè)定中分為兩部分。首先,在EquationSpecification區(qū)域中,鍵入二元因變量的名字,隨后鍵入一列回歸項(xiàng)。由于二元變量估計(jì)只支持列表形式的設(shè)定,所以不能輸入公式。然后,在Binaryestimationmethod中選擇Probit,Logit,Extremevalue選擇三種估計(jì)方法的一種。以例7.1為例,對(duì)話框如圖7.2所示。
圖7.2二元選擇模型估計(jì)對(duì)話框
例7.1的估計(jì)輸出結(jié)果如下:
參數(shù)估計(jì)結(jié)果的上半部分包含與一般的回歸結(jié)果類似的基本信息,標(biāo)題包含關(guān)于估計(jì)方法(ML表示極大似然估計(jì))和估計(jì)中所使用的樣本的基本信息,也包括達(dá)到收斂要求的迭代次數(shù)。和計(jì)算系數(shù)協(xié)方差矩陣所使用方法的信息。在其下面顯示的是系數(shù)的估計(jì)、漸近的標(biāo)準(zhǔn)誤差、z-統(tǒng)計(jì)量和相應(yīng)的概率值及各種有關(guān)統(tǒng)計(jì)量。
在回歸結(jié)果中還提供幾種似然函數(shù):①loglikelihood是對(duì)數(shù)似然函數(shù)的最大值L(b),b是未知參數(shù)?的估計(jì)值。②Avg.loglikelihood是用觀察值的個(gè)數(shù)N去除以對(duì)數(shù)似然函數(shù)L(b),即對(duì)數(shù)似然函數(shù)的平均值。③Restr.Loglikelihood是除了常數(shù)以外所有系數(shù)被限制為0時(shí)的極大似然函數(shù)L(b)。④LR統(tǒng)計(jì)量檢驗(yàn)除了常數(shù)以外所有系數(shù)都是0的假設(shè),這類似于線性回歸模型中的統(tǒng)計(jì)量,測(cè)試模型整體的顯著性。圓括號(hào)中的數(shù)字表示自由度,它是該測(cè)試下約束變量的個(gè)數(shù)。
⑤Probability(LRstat)是LR檢驗(yàn)統(tǒng)計(jì)量的P值。在零假設(shè)下,LR檢驗(yàn)統(tǒng)計(jì)量近似服從于自由度等于檢驗(yàn)下約束變量的個(gè)數(shù)的?2分布。⑥McFaddenR-squared是計(jì)算似然比率指標(biāo),正像它的名字所表示的,它同線性回歸模型中的R2是類似的。它具有總是介于0和1之間的性質(zhì)。
利用式(7.1.10),分布函數(shù)采用標(biāo)準(zhǔn)正態(tài)分布,即Probit模型,例7.1計(jì)算結(jié)果為(7.1.15)z=(-2.93)(2.34)(0.62)(2.39)利用式(7.1.15)的Probit模型的系數(shù),本例按如下公式給出新教學(xué)法對(duì)學(xué)習(xí)成績(jī)影響的概率,當(dāng)PSI=0時(shí):(7.1.19)當(dāng)PSI=1時(shí):(7.1.20)式中測(cè)驗(yàn)得分TUCE取均值(21.938),平均分?jǐn)?shù)GPA是按從小到大重新排序后的序列。
圖7.1新教學(xué)法對(duì)學(xué)習(xí)成績(jī)影響的概率
(2)估計(jì)選項(xiàng)因?yàn)槲覀兪怯玫ㄇ髽O大似然函數(shù)的最大值,所以O(shè)ption選項(xiàng)可以從估計(jì)選項(xiàng)中設(shè)定估計(jì)算法與迭代限制。單擊Options按鈕,打開對(duì)話框如圖7.3所示。圖7.3Options對(duì)話框
Option對(duì)話框有以下幾項(xiàng)設(shè)置:①穩(wěn)健標(biāo)準(zhǔn)差(RobustStandardErrors)對(duì)二元因變量模型而言,EViews允許使用準(zhǔn)-極大似然函數(shù)(Huber/White)或廣義的線性模型(GLM)方法估計(jì)標(biāo)準(zhǔn)誤差。察看RobustCovariance對(duì)話框,并從兩種方法中選擇一種。②初始值EViews的默認(rèn)值是使用經(jīng)驗(yàn)運(yùn)算法則而選擇出來的,適用于二元選擇模型的每一種類型。③估計(jì)法則在Optimizationalgorithm一欄中選擇估計(jì)的運(yùn)算法則。默認(rèn)地,EViews使用quadratichill-climbing方法得到參數(shù)估計(jì)。這種運(yùn)算法則使用對(duì)數(shù)似然分析二次導(dǎo)數(shù)的矩陣來形成迭代和計(jì)算估計(jì)的系數(shù)協(xié)方差矩陣。還有另外兩種不同的估計(jì)法則,Newton-Raphson也使用二次導(dǎo)數(shù),BHHH使用一次導(dǎo)數(shù),既確定迭代更新,又確定協(xié)方差矩陣估計(jì)。
(3)預(yù)測(cè)從方程工具欄選擇Procs/Forecast(FittedProbability/Index),然后單擊想要預(yù)測(cè)的對(duì)象。既可以計(jì)算擬合概率,,也可以計(jì)算指標(biāo)的擬合值。像其他方法一樣,可以選擇預(yù)測(cè)樣本,顯示預(yù)測(cè)圖。如果解釋變量向量xt包括二元因變量yt的滯后值,選擇Dynamic選項(xiàng)預(yù)測(cè),EViews使用擬合值得到預(yù)測(cè)值;而選擇Static選項(xiàng),將使用實(shí)際的(滯后的)yt-1得到預(yù)測(cè)值。對(duì)于這種估計(jì)方法,無論預(yù)測(cè)評(píng)價(jià)還是預(yù)測(cè)標(biāo)準(zhǔn)誤差通常都無法自動(dòng)計(jì)算。后者能夠通過使用View/CovarianceMatrix顯示的系數(shù)方差矩陣,或者使用@covariance函數(shù)來計(jì)算。
可以在各種方式上使用擬合指標(biāo),舉個(gè)例子,計(jì)算解釋變量的邊際影響。計(jì)算預(yù)測(cè)擬合的指標(biāo),并用序列xb中保存這個(gè)結(jié)果。然后生成序列@dnorm(-xb)、@dlogistic(-xb)、@dextreme(-xb),可以與估計(jì)的系數(shù)?j相乘,提供一個(gè)yi的期望值對(duì)xi的第j個(gè)分量的導(dǎo)數(shù)的估計(jì)。(7.5.1)
(4)產(chǎn)生殘差序列通過Procs/MakeReidualSeries選項(xiàng)產(chǎn)生下面三種殘差類型中的一種類型。表7.6殘差類型普通殘差(Ordinary)標(biāo)準(zhǔn)化殘差(Standardized)廣義殘差(Generalized)
§7.2排序選擇模型當(dāng)因變量不止是兩種選擇時(shí),就要用到多元選擇模型(multiplechoicemodel)。多元離散選擇問題普遍存在于經(jīng)濟(jì)生活中。例如:(1)一個(gè)人面臨多種職業(yè)選擇,將可供選擇的職業(yè)排隊(duì),用0,1,2,3表示。影響選擇的因素有不同職業(yè)的收入、發(fā)展前景和個(gè)人偏好等;(2)同一種商品,不同的消費(fèi)者對(duì)其偏好不同。例如,十分喜歡、一般喜歡、無所謂、一般厭惡和十分厭惡,分別用0,1,2,3,4表示。而影響消費(fèi)者偏好的因素有商品的價(jià)格、性能、收入及對(duì)商品的需求程度等;(3)一個(gè)人選擇上班時(shí)所采用的方式——自己開車,乘出租車,乘公共汽車,還是騎自行車。
上述3個(gè)例子代表了多元選擇問題的不同類型。前兩個(gè)例子屬于排序選擇問題,所謂“排序”是指在各個(gè)選擇項(xiàng)之間有一定的順序或級(jí)別種類。而第3個(gè)例子只是同一個(gè)決策者面臨多種選擇,多種選擇之間沒有排序,不屬于排序選擇問題。與一般的多元選擇模型不同,排序選擇問題需要建立排序選擇模型(orderedchoicemodel)。下面我們主要介紹排序選擇模型。
與二元選擇模型類似,設(shè)有一個(gè)潛在變量yi*,是不可觀測(cè)的,可觀測(cè)的是yi,設(shè)yi有0,1,2,…,M等M+1個(gè)取值。(7.2.1)其中:ui*是獨(dú)立同分布的隨機(jī)變量,yi可以通過yi*按下式得到(7.2.2)
設(shè)ui*的分布函數(shù)為F(x),可以得到如下的概率(7.2.3)和二元選擇模型一樣,根據(jù)分布函數(shù)F(x)的不同可以有3種常見的模型:Probit模型、Logit模型和Extremevalue模型。仍然采用極大似然方法估計(jì)參數(shù),需要指出的是,M個(gè)臨界值c1,c2,…,cM事先也是不確定的,所以也作為參數(shù)和回歸系數(shù)一起估計(jì)。
例7.2排序模型的實(shí)例在調(diào)查執(zhí)政者的支持率的民意測(cè)驗(yàn)中,由于執(zhí)政者執(zhí)行了對(duì)某一收入階層有利的政策而使得不同收入的人對(duì)其支持不同,所以收入成為決定人們是否支持的因素。通過調(diào)查取得了市民收入(INC)與支持與否(Y)的數(shù)據(jù),其中如果選民支持則Yi取0,中立取1,不支持取2。我們選取24個(gè)樣本進(jìn)行排序選擇模型分析。
1.模型的估計(jì)與二元選擇模型類似,從主菜單中選擇Objects/NewObject,并從該菜單中選擇Equation選項(xiàng)。從EquationSpecification對(duì)話框,選擇估計(jì)方法ORDERED,標(biāo)準(zhǔn)估計(jì)對(duì)話框?qū)?huì)改變以匹配這種設(shè)定。在EquationSpecification區(qū)域,鍵入排序因變量的名字,其后列出回歸項(xiàng)。排序估計(jì)也只支持列表形式的設(shè)定,不用輸入一個(gè)明確的方程。然后選擇Normal,Logist,ExtremeValue三種誤差分布中的一種,單擊OK按鈕即可。對(duì)話框如圖7.4所示。
圖7.4排序模型的輸入對(duì)話框
例7.2估計(jì)結(jié)果如下:
有兩點(diǎn)需要指出:首先,EViews不能把常數(shù)項(xiàng)和臨界值區(qū)分開,因此在變量列表中設(shè)定的常數(shù)項(xiàng)會(huì)被忽略,即有無常數(shù)項(xiàng)都是等價(jià)的。其次,EViews要求因變量是整數(shù),否則將會(huì)出現(xiàn)錯(cuò)誤信息,并且估計(jì)將會(huì)停止。然而,由于我們能夠在表達(dá)式中使用@round、@floor或@ceil函數(shù)自動(dòng)將一個(gè)非整數(shù)序列轉(zhuǎn)化成整數(shù)序列,因此這并不是一個(gè)很嚴(yán)格的限制。估計(jì)收斂后,EViews將會(huì)在方程窗口顯示估計(jì)結(jié)果。表頭包含通常的標(biāo)題信息,包括假定的誤差分布、估計(jì)樣本、迭代和收斂信息、y的排序選擇值的個(gè)數(shù)和計(jì)算系數(shù)協(xié)方差矩陣的方法。在標(biāo)題信息之下是系數(shù)估計(jì)和漸近的標(biāo)準(zhǔn)誤差、相應(yīng)的z-統(tǒng)計(jì)量及概率值。然后,還給出了臨界值LIMIT_1:C(2),LIMIT_2:C(3)的估計(jì)及相應(yīng)的統(tǒng)計(jì)量。
2.常用的兩個(gè)過程①M(fèi)akeOrderedLimitVector產(chǎn)生一個(gè)臨界值向量c,此向量被命名為L(zhǎng)IMITS01,如果該名稱已被使用,則命名為L(zhǎng)IMITS02,以此類推。②MakeOrderedLimitCovarianceMatrix產(chǎn)生臨界值向量c的估計(jì)值的協(xié)方差矩陣。命名為VLIMITS01,如果該名稱已被使用,則命名為VLIMITS02,以此類推。
3.預(yù)測(cè)因?yàn)榕判蜻x擇模型的因變量代表種類或等級(jí)數(shù)據(jù),所以不能從估計(jì)排序模型中直接預(yù)測(cè)。選擇Procs/MakeModel,打開一個(gè)包含方程系統(tǒng)的沒有標(biāo)題的模型窗口,單擊模型窗口方程欄的Solve按鈕。例7.2因變量y的擬合線性指標(biāo)序列被命名為i_Y_0,擬和值落在第一類中的擬合概率被命名為Y_0_0的序列,落在第二類中的擬合概率命名為Y_1_0的序列中,落在第三類中的擬合概率命名為Y_2_0的序列中,等等。注意對(duì)每一個(gè)觀察值,落在每個(gè)種類中的擬合概率相加值為1。表7.7中Y_0_0,Y_1_0,Y_2_0分別是支持、中立、不支持的概率,Y,INC是實(shí)際樣本。
4.產(chǎn)生殘差序列選擇Proc/MakeResidualSeries產(chǎn)生廣義殘差序列,輸入一個(gè)名字或用默認(rèn)的名字,然后單擊OK按鈕。一個(gè)排序模型的廣義殘差由下式給出:(7.5.2)其中:c0=-?,cM+1=?。
§7.3受限因變量模型現(xiàn)實(shí)的經(jīng)濟(jì)生活中,有時(shí)會(huì)遇到這樣的問題,因變量是連續(xù)的,但是受到某種限制,也就是說所得到的因變量的觀測(cè)值來源于總體的一個(gè)受限制的子集,并不能完全反映總體的實(shí)際特征,那么通過這樣的樣本觀測(cè)值來推斷總體的特征就需要建立受限因變量模型(limiteddependentvariablemodels)。本節(jié)研究?jī)深愂芟抟蜃兞磕P?,即審查回歸模型(censoredregressionmodels)和截?cái)嗷貧w模型(truncatedregressionmodels)。
7.3.1審查回歸模型1.模型的形式考慮下面的潛在因變量回歸模型(7.3.1)其中:?是比例系數(shù);y*是潛在變量。被觀察的數(shù)據(jù)y與潛在變量y*的關(guān)系如下:(7.3.2)
換句話說,yi*的所有負(fù)值被定義為0值。我們稱這些數(shù)據(jù)在0處進(jìn)行了左截?。▽彶椋╨eftcensored)。而不是把觀測(cè)不到的yi*的所有負(fù)值簡(jiǎn)單地從樣本中除掉。此模型稱為規(guī)范的審查回歸模型,也稱為Tobit模型。更一般地,可以在任意有限點(diǎn)的左邊和右邊截?。▽彶椋?,即(7.3.3)其中:,代表截?。▽彶椋c(diǎn),是常數(shù)值。如果沒有左截取(審查)點(diǎn),可以設(shè)為。如果沒有右截取(審查)點(diǎn),可以設(shè)為。規(guī)范的Tobit模型是具有和的一個(gè)特例。
2.審查回歸模型的極大似然估計(jì)與前邊介紹的幾個(gè)模型類似,可以采用極大似然法估計(jì)審查回歸模型的參數(shù),對(duì)數(shù)似然函數(shù)為(7.3.4)求式(7.3.4)的最大值即可得參數(shù)?,?的估計(jì)。這里f,F分別是u的密度函數(shù)和分布函數(shù)。
特別地,對(duì)于Tobit模型,設(shè)u~N(0,1),這時(shí)對(duì)數(shù)似然函數(shù)為(7.3.5)式(7.3.5)是由兩部分組成的。第一部分對(duì)應(yīng)沒有限制的觀測(cè)值,與經(jīng)典回歸的表達(dá)式是相同的;第二部分對(duì)應(yīng)于受限制的觀測(cè)值。因此,此似然函數(shù)是離散分布與連續(xù)分布的混合。將似然函數(shù)最大化就可以得到參數(shù)的極大似然估計(jì)。
例7.3審查模型的實(shí)例本例研究已婚婦女工作時(shí)間問題,共有50個(gè)調(diào)查數(shù)據(jù),來自于美國(guó)國(guó)勢(shì)調(diào)查局[U.S.BureauoftheCensus(CurrentPopulationSurvey,1993)],其中y表示已婚婦女工作時(shí)間,x1~x4分別表示已婚婦女的未成年子女個(gè)數(shù)、年齡、受教育的年限和丈夫的收入。只要已婚婦女沒有提供工作時(shí)間,就將工作時(shí)間作零對(duì)待,符合審查回歸模型的特點(diǎn)。
7.3.2截?cái)嗷貧w模型截?cái)鄦栴},形象地說就是掐頭或者去尾。即在很多實(shí)際問題中,不能從全部個(gè)體中抽取因變量的樣本觀測(cè)值,而只能從大于或小于某個(gè)數(shù)的范圍內(nèi)抽取樣本的觀測(cè)值,此時(shí)需要建立截?cái)嘁蜃兞磕P?。例如,在研究與收入有關(guān)的問題時(shí),收入作為被解釋變量。從理論上講,收入應(yīng)該是從零到正無窮,但實(shí)際中由于各種客觀條件的限制,只能獲得處在某個(gè)范圍內(nèi)的樣本觀測(cè)值。這就是一個(gè)截?cái)鄦栴}。截?cái)嗷貧w模型的形式如下:(7.3.7)其中:yi只有在時(shí)才能取得樣本觀測(cè)值,,為兩個(gè)常數(shù)。對(duì)于截?cái)嗷貧w模型,仍然可以采用極大似然法估計(jì)模型的參數(shù),只不過此時(shí)極大似然估計(jì)的密度函數(shù)是條件密度。
7.5.3估計(jì)審查回歸模型1.模型的估計(jì)為估計(jì)審查模型,打開Equation對(duì)話框,從EquationSpecification對(duì)話框所列估計(jì)方法中選擇CENSORED估計(jì)方法。在EquationSpecification區(qū)域,輸入被審查的因變量的名字及一系列回歸項(xiàng)。審查回歸模型的估計(jì)只支持列表形式的設(shè)定(圖7.5)。
圖7.5審查模型的估計(jì)對(duì)話框
在三種分布中選擇一種作為誤差項(xiàng)的分布,EViews提供三種可供選擇的分布(表7.8)。表7.8誤差項(xiàng)的分布StandardnormalLogisticExtremevalue(歐拉常數(shù))還需要在DependentVariableCensoringPoints一欄提供關(guān)于被檢查因變量的臨界點(diǎn)的信息。臨界點(diǎn)可以是數(shù)值、表達(dá)式、序列,還可以是空的。有兩種情況需要考慮:①臨界點(diǎn)對(duì)于所有個(gè)體都是已知的;②臨界點(diǎn)只對(duì)具有審查觀察值的個(gè)體是已知的。
(1)臨界點(diǎn)對(duì)所有個(gè)體都已知按照要求在編輯欄的左編輯區(qū)(Left)和右編輯區(qū)(Right)輸入臨界點(diǎn)表達(dá)式。注意如果在編輯區(qū)域留下空白,EViews將假定該種類型的觀測(cè)值沒有被審查。例如,在規(guī)范的Tobit模型中,數(shù)據(jù)在0值左邊審查,在0值右邊不被審查。這種情況可以被指定為:左編輯區(qū):0右編輯區(qū):[blank]而一般的左邊和右邊審查由下式給出:左編輯區(qū):右編輯區(qū):EViews也允許更一般的設(shè)定,這時(shí)審查點(diǎn)已知,但在觀察值之間有所不同。簡(jiǎn)單地在適當(dāng)?shù)木庉媴^(qū)域輸入包含審查點(diǎn)的序列名字。
(2)臨界點(diǎn)通過潛在變量產(chǎn)生并且只對(duì)被審查的觀測(cè)值個(gè)體已知在一些情況下,假設(shè)臨界點(diǎn)對(duì)于一些個(gè)體(和不是對(duì)所有的觀察值都是可觀察到的)是未知的,此時(shí)可以通過設(shè)置0-1虛擬變量(審查指示變量)來審查數(shù)據(jù)。EViews提供了另外一種數(shù)據(jù)審查的方法來適應(yīng)這種形式。簡(jiǎn)單地,在估計(jì)對(duì)話框中選擇Fieldiszero/oneindicatorofcensoring選項(xiàng),然后在合適的編輯區(qū)域輸入審查指示變量的序列名。對(duì)應(yīng)于審查指示變量值為1的觀察值要進(jìn)行審查處理,而值為0的觀察值不進(jìn)行審查。
例如,假定我們有個(gè)人失業(yè)時(shí)間的觀察值,但其中的一些觀察值反映的是在取得樣本時(shí)仍然繼續(xù)失業(yè)的情況,這些觀察值可以看作在報(bào)告值的右邊審查。如果變量rcens是一個(gè)代表審查的指示變量,可以選擇Fieldiszero/oneindicatorofcensoring設(shè)置,并在編輯區(qū)域輸入:左編輯區(qū):[blank]右編輯區(qū):rcens如果數(shù)據(jù)在左邊和右邊都需要審查的話,對(duì)于每種形式的審查使用單獨(dú)的審查指示變量:左編輯區(qū):lcens右編輯區(qū):rcens這里,lcens也是審查指示變量。完成模型的指定后,單擊OK。EViews將會(huì)使用合適的迭代步驟估計(jì)模型的參數(shù)。
例7.3的估計(jì)結(jié)果如下:
2.模型的預(yù)測(cè)與產(chǎn)生殘差EViews提供了預(yù)測(cè)因變量期望E(y|x,?,?)的選項(xiàng),或預(yù)測(cè)潛在變量期望E(y*|x,?,?)的選項(xiàng)。從工具欄選擇Forecast打開預(yù)測(cè)對(duì)話框。為了預(yù)測(cè)因變量的期望,應(yīng)該選擇Expecteddependentvariable,并輸入一個(gè)序列名稱用于保存輸出結(jié)果。為了預(yù)測(cè)潛在變量的期望,單擊Index-Expectedlatentvariable,并輸入一個(gè)序列的名稱用于保存輸出結(jié)果。潛在變量的期望E(y*|x,?,?)可以從如下關(guān)系中得到:(7.5.3)通過選擇Procs/MakeResidualSeries,并從殘差的3種類型中進(jìn)行一種,可以產(chǎn)生審查模型的殘差序列。審查模型的殘差也有3種類型,與前述類似。
3.估計(jì)截?cái)嗷貧w模型估計(jì)一個(gè)截?cái)嗷貧w模型和估計(jì)一個(gè)審查模型遵循同樣的步驟,從主菜單中選擇Quick/EstimateEquation,并在EquationSpecification對(duì)話框中,選擇CENSORED估計(jì)方法。出現(xiàn)估計(jì)審查和截?cái)嗷貧w模型對(duì)話框。在EquationSpecification區(qū)域鍵入截?cái)嘁蜃兞康拿Q和回歸項(xiàng)的列表,并從三種分布中選擇一種作為誤差項(xiàng)的分布。選擇Truncatedsample選項(xiàng)估計(jì)截?cái)嗄P?。有幾點(diǎn)需要補(bǔ)充說明:首先,截?cái)喙烙?jì)只對(duì)截?cái)帱c(diǎn)已知的模型進(jìn)行估計(jì)。如果用指標(biāo)指定截?cái)帱c(diǎn),EViews將會(huì)給出錯(cuò)誤信息,指出這種選擇是無效的。其次,如果有一些因變量的值在截?cái)帱c(diǎn)之外,EViews將會(huì)發(fā)出錯(cuò)誤信息。而且,EViews將會(huì)自動(dòng)排除掉嚴(yán)格等于截?cái)帱c(diǎn)的所有觀察值。例如,如果指定零作為左截?cái)帱c(diǎn),如果有觀察值低于零,EViews將會(huì)發(fā)出錯(cuò)誤信息,并將排除嚴(yán)格等于零的任何觀察值。
在實(shí)際應(yīng)用中,我們應(yīng)該根據(jù)要研究的變量的數(shù)據(jù)類型選擇合適的模型。當(dāng)因變量y表示事件發(fā)生的數(shù)目,是離散的整數(shù),即為計(jì)數(shù)變量,并且數(shù)值較小,取零的個(gè)數(shù)多,而解釋變量多為定性變量時(shí),應(yīng)該考慮應(yīng)用計(jì)數(shù)模型(countmodels)。例如,一個(gè)公司提出申請(qǐng)的專利的數(shù)目,以及在一個(gè)固定的時(shí)間間隔內(nèi)的失業(yè)人員的數(shù)目。在計(jì)數(shù)模型中應(yīng)用較廣泛的為泊松模型?!?.4計(jì)數(shù)模型
7.4.1泊松模型的形式與參數(shù)估計(jì)設(shè)每個(gè)觀測(cè)值yi都來自一個(gè)服從參數(shù)為m(xi,?)的泊松分布的總體,(7.4.1)對(duì)于泊松模型(poissonmodel),給定xi時(shí)yi的條件密度是泊松分布:(7.4.2)由泊松分布的特點(diǎn),(7.4.3)參數(shù)?的極大似然估計(jì)量(MLE)通過最大化如下的對(duì)數(shù)似然函數(shù)來得到:(7.4.4)
倘若條件均值函數(shù)被正確的指定且的條件分布為泊松分布,則極大似然估計(jì)量是一致的、有效的、且服從漸近正態(tài)分布。泊松假定的約束條件在經(jīng)驗(yàn)應(yīng)用中經(jīng)常不成立。最重要的約束條件是式(7.4.3)中的條件均值和條件方差相等。如果這一條件被拒絕,模型就被錯(cuò)誤設(shè)定。這里要注意泊松估計(jì)量也可以被解釋成準(zhǔn)極大似然估計(jì)量。這種結(jié)果的含義在下面討論。
7.4.2負(fù)二項(xiàng)式模型的形式與參數(shù)估計(jì)對(duì)泊松模型的常用替代是使用一個(gè)負(fù)二項(xiàng)式(negativebinomial)分布的似然函數(shù)極大化來估計(jì)模型的參數(shù)。負(fù)二項(xiàng)式分布的對(duì)數(shù)似然函數(shù)如下:(7.4.5)其中:?2是和參數(shù)?一起估計(jì)的參數(shù)。當(dāng)數(shù)據(jù)過度分散時(shí),經(jīng)常使用負(fù)二項(xiàng)式分布,這樣條件方差大于條件均值,由于下面的矩條件成立:(7.4.6)(7.4.7)因此,?2測(cè)量了條件方差超過條件均值的程度。
7.4.3準(zhǔn)-極大似然估計(jì)如果因變量的分布不能被假定為泊松分布,那么就要在其他分布假定之下執(zhí)行準(zhǔn)-極大似然估計(jì)(quasi-maximumlikelihood,QML)。即使分布被錯(cuò)誤假定,這些準(zhǔn)-極大似然估計(jì)量也能產(chǎn)生一個(gè)條件均值被正確設(shè)定的參數(shù)的一致估計(jì),即對(duì)于這些QML模型,對(duì)一致性的要求是條件均值被正確設(shè)定。關(guān)于QML估計(jì)的進(jìn)一步的細(xì)節(jié)參見Gourieroux,Monfort,和Trognon(1984a,1984b)。Wooldridge(1990)介紹了在估計(jì)計(jì)數(shù)模型參數(shù)時(shí)QML方法的使用。也可參見關(guān)于廣義線性模型(McCullagh和Nelder,1989)的擴(kuò)展的相關(guān)文獻(xiàn)。
1.泊松準(zhǔn)-極大似然估計(jì)如果條件均值被正確設(shè)定,泊松極大似然估計(jì)也是服從其他分布類型的數(shù)據(jù)的準(zhǔn)-極大似然估計(jì)。它將產(chǎn)生參數(shù)?的一致估計(jì)量。
2.指數(shù)準(zhǔn)-極大似然估計(jì)指數(shù)分布的對(duì)數(shù)似然函數(shù)如下:(7.4.8)和其他QML估計(jì)量一樣,倘若m(xi,?)被正確指定,即使y的條件分布不是指數(shù)分布,指數(shù)分布的準(zhǔn)-極大似然估計(jì)仍是一致的。
3.正態(tài)準(zhǔn)-極大似然估計(jì)正態(tài)分布的似然函數(shù)如下:(7.4.9)對(duì)于固定的?2和正確設(shè)定的m(xi,?),即使分布不是正態(tài)的,正態(tài)分布的對(duì)數(shù)極大似然函數(shù)仍提供了一致的估計(jì)。
4.負(fù)二項(xiàng)式準(zhǔn)-極大似然估計(jì)最大化式(7.3.12)所表示的負(fù)二項(xiàng)式分布的對(duì)數(shù)似然函數(shù),對(duì)于固定的?2,可以得到參數(shù)?的準(zhǔn)-極大似然估計(jì)。倘若m(xi,?)被正確指定,即使y的條件分布不服從負(fù)二項(xiàng)式分布,這個(gè)準(zhǔn)-極大似然估計(jì)量仍是一致的。
例7.4計(jì)數(shù)模型的實(shí)例本例研究輪船發(fā)生事故的次數(shù)與輪船的特征屬性、運(yùn)行時(shí)間之間的關(guān)系。因變量y表示平均每月輪船發(fā)生事故數(shù)。解釋變量是輪船特征屬性,包括輪船類型、建造時(shí)間、使用時(shí)期等。輪船類型有5種,分別用x1~x5表示,4個(gè)建造時(shí)間,分別用y1~y4表示,z1,z2表示兩個(gè)使用時(shí)期,da表示運(yùn)行時(shí)間。本例數(shù)據(jù)符合計(jì)數(shù)模型的條件,故采用泊松模型建模。注意到定性數(shù)據(jù)較多,為防止多重共線性,在引進(jìn)虛擬變量時(shí),需要人為地去掉一個(gè)。例如,輪船類型有5種x1~x5,則去掉x1,而在模型中只用其余4個(gè)變量x2~x5,同樣4個(gè)建造時(shí)間y1~y4,在模型中只用其余3個(gè)變量y2~y4,兩個(gè)使用時(shí)期在模型中只用z2。模型如下:(7.4.10)
7.5.4估計(jì)計(jì)數(shù)模型1.模型的估計(jì)估計(jì)一個(gè)計(jì)數(shù)模型,打開Equation對(duì)話框,然后在估計(jì)方法中選擇COUNT作為估計(jì)方法。EViews顯示計(jì)數(shù)模型估計(jì)對(duì)話框(圖7.6)。圖7.6計(jì)數(shù)模型的估計(jì)對(duì)話框
在上面的編輯區(qū)域,列出被解釋變量和解釋變量。必須通過列表形式指定計(jì)數(shù)模型。模型的形式如方程(7.5.4)所示:(7.5.4)在Options標(biāo)簽中,可以根據(jù)需要改變?nèi)笔」烙?jì)的運(yùn)算法則、收斂準(zhǔn)則、初始值和計(jì)算系數(shù)協(xié)方差的方法。
EViews提供的5種計(jì)數(shù)模型的估計(jì)方法:Poisson[MLandQML];Negativebinomial[ML];Exponential[QML];Normal/NLS[QML];Negativebinomial[QML]。從上面的5種計(jì)數(shù)模型中選擇一種,并且對(duì)于Negativebinomial[QML]模型需要指定一個(gè)值作為固定的方差參數(shù)。前4種方法對(duì)應(yīng)4種因變量的分布,分別為泊松分布、負(fù)二項(xiàng)分布、指數(shù)分布和正態(tài)分布。
例7.4的估計(jì)結(jié)果如下:
寫成方程如下:z=(-6.41)(-1.29)(-2.26)(-0.46)(1.13)(4.31)(4.28)(1.5)(3.13)(8.87)輪船類型對(duì)事故發(fā)生有影響,如類型是x5的系數(shù)是正的,會(huì)使事故發(fā)生的可能增加;建造時(shí)間y2~y4的系數(shù)基本是遞減的,表明建造時(shí)間越長(zhǎng),則發(fā)生事故的可能越大;使用時(shí)期z2也對(duì)事故發(fā)生產(chǎn)生很大影響,使用時(shí)間越長(zhǎng),則發(fā)生事故的可能越大;運(yùn)行時(shí)間ln(da)的系數(shù)是0.9,表明運(yùn)行時(shí)間每增加1%,則發(fā)生事故數(shù)量會(huì)增加0.9%,因此對(duì)發(fā)生事故有顯著的影響。
2.模型的預(yù)測(cè)與產(chǎn)生殘差選擇Forecast可以預(yù)測(cè)因變量?和線性指標(biāo)(xb),b是參數(shù)?的估計(jì)值,二者的關(guān)系為?=exp(xb)。選擇ProcMakeResidualSeries,可以產(chǎn)生計(jì)數(shù)模型的3種類型殘差,殘差類型參照表7.6。