Title page for 90225019


[Back to Results | New Search]

Student Number 90225019
Author Li-Ya Shao(邵莉雅)
Author's Email Address No Public.
Statistics This thesis had been viewed 2028 times. Download 1521 times.
Department Graduate Institute of Statistics
Year 2002
Semester 2
Degree Master
Type of Document Master's Thesis
Language zh-TW.Big5 Chinese
Title Linear regression for large data base.
Date of Defense 2003-06-19
Page Count 38
Keyword
  • Data Mining
  • Large data base
  • regression
  • Abstract Many classical methods are not used for large data base . This paper is base on the statistic point to analysis the large data base . We prefer three regression methods to analysis data of large data base. 
    Table of Content 目 錄
    第1章 緒論…………………………………………………………1
    1.1研究動機……………………………………………………1
    1.2研究方法……………………………………………………3
    第2章 傳統模型與方法……………………………………………5
    2.1傳統迴歸模型………………………………………………5
    2.2傳統迴歸變數選擇法………………………………………6
    2.3龐大資料集…………………………………………………8
    第3章 模型與方法…………………………………………………9
    3.1  分段加權最小平方法………………………………………9
    3.2  最佳加權估計量之抽樣分配………………………………12
    第4章 龐大資料集之檢定與變項選取法…………………………15
    4.1  迴歸係數之加權檢定及區間估計…………………………15
    4.2  迴歸係數分段檢定法………………………………………16
    4.3  分段樣本數研究……………………………………………18
    4.4  分段變數選擇法……………………………………………20
    第5章 模擬結果及實例分析………………………………………23
    5.1 迴歸係數分段檢定法及區間估計之模擬…………………23
     5.1.1 各區段誤差項具相同變異數……………………………23
     5.1.2 各區段誤差項具不同變異數……………………………25
    5.2 分段變數選擇法之模擬……………………………………27
    5.3 戶口普查資料分析…………………………………………31
    5.3.1 資料描述…………………………………………………31
    5.3.2 分段變數選擇法對映於普查資料………………………34
    第6章 討論及未來發展方向………………………………………37
    第7章 參考文獻……………………………………………………38
    表 目 錄
    表1:各區段誤差項具相同變異數,不同 , 組合下之臨界值 和型一誤差 …………………………………………………………………24
    表2:各區段誤差項具相同變異數下,兩種分段加權平均之區間估計的覆蓋機率 ……………………………………………………………25
    表3:各區段誤差項變異數不同下,最佳權重與等量權重之比較……26
    表4:模型 選出變數係數之估計量 …………………………………29
    表5:模型 選出變數係數之估計量 …………………………………30
    表6:普查資料之各變項相關係數表 …………………………………34
    表7:普查資料選入變數係數之估計量………………………………36
    圖 目 錄
    圖1:普查資料之個人年收入直方圖………………………………33
    圖2:普查資料之log(個人年收入)直方圖………………………33
    Reference 1. Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis. 2nd Ed. , Springer Verlag, New York.
    2. Chao, M. T. and Lin, G. D. (1993). The Asymptotic Distributions of the Remedians. Journal of Statistical Planning and Inference, 37, 1-11.
    3. Draper, N. R. , Smith, H. (1998). Applied Regression Analysis 3nd Ed.
    Wiley, New York .
    4. Hand, D. J., Blunt, G., Kelly, M. G. and Adams, N. M. (2000). Data
    mining for Fun and Profit. Statistical Sciences, 15, 111-131.
    5. Hand, D. J. (1998). Data mining : Statistics and more ? .American Statistician, 52, 112-119.
    6. Hurley, C. and Modarres, R. (1995).Low-storage quantile estimation. Computational Statistics, 10, 311-325.
    7. Neter, J., Kutner, M. H., Nachtsheim, C. J. and Wasserman W. (1996). Applied Linear Regression Models, 3rd ED, Richard D. Irwin,  Burr Ridge,Illinois.
    8. 林共進和林億雄(2001)。 龐大資料集的統計推論方法。成功大學統計學報,第二十四期,68-84。
    9. 馬瀰嘉、蘇佩芳和林共進(2001)。資料探勘-超大型資料庫基本統計量的計量。成功大學統計學報,第二十四期,85-99。
    10.任眉眉、林億雄和林共進(2002)。龐大資料集之簡單線性迴歸分析。Manuscript 。
    Advisor
  • Tsai-Hung Fan(樊采虹)
  • Files
  • 90225019.pdf
  • approve immediately
    Date of Submission 2003-06-26

    [Back to Results | New Search]


    Browse | Search All Available ETDs

    If you have dissertation-related questions, please contact with the NCU library extension service section.
    Our service phone is (03)422-7151 Ext. 57407,E-mail is also welcomed.