内容发布更新时间 : 2025/1/22 23:51:23星期一 下面是文章的全部内容请认真阅读。
夏普比率:越大投资组合越好!是衡量投资组合的回报的指标 对于不同skewness的理解 最高点的数据用于是mode;
Positive skew时mean在最右边, 最大, mode 在最左边;median永远在中间 峰度---正态分布的峰度为3! Sample kurtosis=(1/n)*sum(Xi-X)^4/s^4 Excess kurtosis=sample kurtosis-3
投资收益成尖峰分布的风险较大!!!! 乘法原则---条件概率计算---P (AB)=P(A?B)*P(B)
全概率事件的计算----the relationship between unconditional and conditional probabilities of mutually exclusive and exhaustive events.
协方差---两个变量之间的相互关系。 其原本计算公式为:
Cov(A, B)=E{[Ai-E(A)][Bi-E(B)] 这是原始计算公式, 可以变形为概率下的两个变量对其Expected Value的离差!
Correlation coefficient 相关系数=Cov(1, 2)/(σ1*σ2)
相关系数永远在-1和+1之间;完全正相关说明,一个变量的变化,伴随着另一个变量同比例的同方向变化
投资组合方差----牢记公式!!! 贝叶斯公式:
Updated probability=(probability of new information for a given event)/(unconditional probability of new information)*prior probability of event
新的信息条件下某事件的条件概率×先验事件的概率/新的信息条件下该事件的无条件概率
实际上新的信息条件下某事件的条件概率×先验事件的概率 得出的正好是新信息和先验概率同时发生的概率我们记为A, 那么A的概率除以新的信息条件下该事件的无条件概率,则就是新信息下的updated的概率! Labeling就是我们常说的抽屉问题!
Common probability distributions Probability density function ---PDF---用于计算一个区间的概率 Cumulative distribution function—CDF—小于或等于某个值得概率
离散型均匀分布discrete uniform distribution---顾名思义,就是其分布是离散的, 概率分布是均匀的。呵呵
1. 二项分布---波努力分布---每次试验是独立实验, 可以重复做!---
a. p(x)=Cmn*p^n*(1-p)^(m-n) b. 其方差为σ^2=np(1-p)
c. 其expected value=E(X)=np
2. 二项式交叉树---正是期权定价的时候学习的
3. Continuous uniform distribution连续性均匀分布---就是一种线性的均匀分布 4. 正态分布
a. 通过mean和方差进行衡量 b. 偏度为0 c. 峰度为3
d. 线性组合的多个正态分布,仍然是正态分布 e. 置信区间confidence interval
i. 对于68%的置信区间,X的取值在其均值的1s和-1s之间
ii. 对于90%的置信区间,X的取值在其均值的1.65s和-1.65s之间 iii. 对于95%的置信区间,X的取值在其均值的1.96s和-1.96s之间 iv. 对于99%的置信区间,X的取值在其均值的2.58s和-2.58s之间
f. 标准正态分布---z=observation-population mean/standard deviation=(x-μ)/σ
i. Z value---represent the no. of standard deviation a given observation is from the population mean.---z value就是代表该数据偏离了样本多少个标准差!!!---p251的例题要理解其思路
ii. 一个股票分布类似正态分布,expected return=10%, 标准差=12%,
那么其收益大于30%的概率多少?30-10=20%---20/12=1.66个标准差---查表得到95.25%的概率小于30%----4.85%的可能性是大于30%
5. 单变量和多变量分布---
6. Shortfall risk不足风险---投资组合回报低于某个目标收益的概率
a. Roy‘s safety first criteria---最优组合的投资组合要最小化投资组合收益的概
率要低于最低可接受的水平---该最低可接受的水平称为threshold---RL ------SF Ratio=[E(RP)-RL]/σp
b. 这个比例和夏普比率非常相似---Sharpe=[E(RP)-Rf]/σp
c. 注意SF Ratio是小于mean的多少个standard deviation! 所以SFR越大,
则小于threshold的比例就越低----SFR越大越好! d. SFR和Z-value从概念上来讲是一样的
e. 遇到题目分为两步进行计算:
i. 计算SFR;---根据目标收益率或者threshold ii. 选择SFR较大的一个
7. Lognormal 分布
a. 对数正态分布是向右偏的
b. 对数正态分布永远是正的, 所以比较适合建立模型进行资产分析 c. 采用对数正态分布来model 投资的price relative d. Price relative就是S1/S0=1+the holding period return e. Price relative=0则说明投资是-100%
8. 离散复利和连续 复利
a. Effective annual rate=e^Rcc-1
b. Holding period return HPR的计算公式---ln(S1/S0)=ln(1+HPR)=Rcc
c. If Rcc=10% for one year, then the effective holding period return over 2
years=e^(10%*2)=22.14%
d. The holding period return after T years when the annual continuously
compounded rate is Rcc----HPRT=(e^Rcc*T)-1
e. 如果两年的连续复利的回报率为A%, 则一年的连续复利回报率为A%/2
9. 蒙特卡罗模拟----多次重复一个或者多个可能会影响证券价格的risk factor,来模拟
证券价格的分析方法。 ---对于每个risk factor, 必须定义其可能遵循的概率分布的参数(这里的参数是指mean,variance,possible ,skewness等等)! 10. 蒙特卡罗模拟的缺陷是
a. 比较复杂;
b. 对假设非常敏感;
c. 仅仅是统计而不是分析
11. 历史分析使用历史数据进行分析。 但是缺点是历史数据可能不是未来的
good indication 样本和统计
样本和population的区别
样本误差---不可避免---sample error of the mean=sample mean-population mean=x bar-μ 样本的分布---sample distribution of the mean---从一个population中多次抽取出一个个数为1000的sample,来作为对整个population的估计。 这1000个sample的每个sample的平均值构成的分布叫做sample distribution of the mean 分层抽样stratified random sampling 时间序列和截面序列
时间序列---观察一段时间区间内的数据
Cross-sectional data---截面序列---在某个特定时间时点,每个股票的收益 中心极限定理:
1. 当一个population的mean=μ,标准差为σ,那么当其样本的size n足够大的时候,不论这个population是否正态分布, 则从中抽取的sample的sampling distribution of sample means接近正态分布---而且其mean= μ,方差为σ^2/n 2. 样本要足够大! 样本均值符合正态分布 样本均值的标准误差
Standard error of the sample mean---the standard divatino of the distribution of the sample means---就是选出来的sample有很多个, 每个sample的平均数构成的组合的standard deviation
1. 当整体population的标准差已知,则Standard error of the sample mean=σ/n^0.5 2. 实际上population的标准差一般都不知道的!Standard error of the sample mean=s/
n^0.5
3. 其中s=[sum(xi-x bar)^2/(n-1)]^0.5----此处注意:是n-1—原因是从正态分布总体中抽
取的样本符合t分布!! 4. 注意三个概念:
a. 样本标准差s b. 总比标准差σ
c. 样本平均数标准误差σ
点估计---用单个样本算出的值来估计总体---point estimate
1. 点估计
2. Confidence interval---置信区间---就是一组数据落在一定区间,概率为1-a
a. 此处a叫做level of significance for the confidence level b. The probability 1-a叫做degree of confidence
c. 置信区间的构成----point estimate ± reliability factor×standard error T分布
1. 当样本容量是小样本,属于正态分布或者接近正态分布,而且方差未知的情况 2. 也适用于总体方差未知,样本容量比较大,从而根据中心极限定理,样本分布接近正态分布的情况 3. T分布的特点
a. 对称;
b. 一个参数可以描述---degree of freedom—自由度df=n-1 c. 自由度越大,其图形越苗条,越细高!
d. 注意不要把自由度和峰度搞混, 自由度越大越接近正态分布, 但是就峰度
来讲, 正态分布的峰度=3
e. 所谓厚尾,是指两侧的尾巴偏离中心0的厚度!
f. 厚尾!fatter tails---偏离平均值的概率比正态分布偏离均值的概率要大!! g. 厚尾意味着更多的数据偏离分布的中心---也就是有很多outlier!
h. 随着自由度的增加---也就是样本容量的增加,t分布越来越接近正态分布 i. 当n大于30的时候, t分布已经接近正态分布了 j. T分布实际上更加扁平
4. 置信区间confidence interval的构建和解释
a. 正态总体,方差已知
i. 置信区间为x bar ± z*σ/n^0.5
ii. z的意思是reliability factor---是right-hand tail一侧的分布的概率=a/2
的时候的Z score
iii. z-score= z =1.645, 则置信区间为90%,也就是significant level=10%,
5% at each tail
iv. z-score= z =1.96, 则置信区间为95%,也就是significant level=5%, 2.
5% at each tail
v. z-score= z =2.575, 则置信区间为99%,也就是significant level=1%, 0.
5% at each tail
b. 正态总体, 方差未知
i. 置信区间为x bar ± t*s/n^0.5
ii. t 是t分布依赖因子, 表示自由度为n-1的t分布,落在t右侧的概
率为a/2
iii. 由于t分布更加厚尾, 也就是更加偏离中心区域, 那么我们使用t
分布的依赖因子实际上是更加conservative!
c. 总体分布不一定是正态分布, 方差未知的总体,大样本的情况
i. 分布是non-normal,总体方差已知,使用z统计
ii. 分布是non-normal,总体方差未知,使用t统计---前提是样本足够
大!---当然也可以使用z统计,但是t统计更加保守!
iii. 总结如下:
When the sample is from Normal distribution with known variance Normal distribution with unknown variance Non-normal distribution with known variance Non-normal distribution with unknown variance 5. 各种统计偏差 Sample size n<30 z t n.a n.a Sample size n>=30 z T Z T或z统计都可以,但是t统计更加conservative!