假設我们从$ d $維度球面(單位方差)Gaussian中采樣$ S $ $ $ $ $ $ $ $ $ $ $.众所週知,樣本的任何一點都大概在距离中心大約$ \ sqrt {d} $的距离內.設$ c $表示高斯的中心。

让我们从樣本中選擇任何點$ p $,並让$ T $表示$ S $ $ $ $ $ $ $ $ $ $ $ $ $ $.我们观察到$ || c- \ text {mean}(T)|| \ ll \ sqrt {d} $.平均$(T)$比樣本的任意隨機點更接近中心的原因是什麼? 任何帮助表示赞赏。

假設$ n $為數百万美元,$ t $為數百美元。

最新回復
  • 2019-12-5
    1 #

    這是一个關於高維欧氏几何的問题,与"維數的诅咒"有關.归結為: almost all the surface area of a sphere in $d$-dimensional Euclidean space $E^d$ is concentrated around its equator.    任何點的最近邻居都倾向於在赤道週圍的隨機方向上散射,因此它们的平均值將接近其中心 - 這是球體本身的中心。

    本文的其餘部分解釋了為什麼会這樣,估計距离縮小的程度,並提供模擬(以100美元的維度)来支援結論。


    There's a nice statistical demonstration   這个赤道浓度引理.鉴於點的平方半徑集中在$ d $附近(由於它们的$ \ chi ^ 2(d)$分佈),這使它们接近半徑為$ \ sqrt {d} $的球體,我们需要 只考虑最近邻居与原點之間的角度.對於每个這樣的角度$ \ theta $,使用$(\ cos(\ theta)+1)/ 2 $来測量它的大小.這个值从邻近的$ 1 $减少到赤道的$ 1/2 $,从而在相反的點上降到$ 0 $.它有一个Beta $((d-1)/ 2,(d-1)/ 2)$發行版。

  • 2019-12-5
    2 #

    首先,對問题的評論:樣本中的积分$ S $將不会距离中心$ \ sqrt {d} $.距离平方將遵循$ \ chi ^ 2 $分配,具有$ d $自由度,因此具有$ d $ mean和$ 2d $ variance.然後,距离將分佈在$ \ sqrt {d} $附近,但$ \ sqrt {d} $ radius shell中没有點集中。

    對於問题本身,我看不出你如何观察$ || c- \ text {mean}(T)|| << \ sqrt {d} $,實際上$ || c- \ text {mean}(T)|| $很大程度上取決於如何選擇$ T $.我將評論两个極端情况:

    With this geometric result in mind, the answer is now obvious. we can obtain quantitative results, too.

相似問題

  • regression:残差分析和双向互動術語
  • self study:鉴於$ E(y | X)= X $和$ E(X | y)= y $,證明$ P(X = y)= 1 $