注:该文是根据开智学堂数据科学入门班的讲课内容整理而成,主讲人是肖凯老师。
主要学习用 statsmodels 模块进行线性回归、逻辑回归和时间序列分析。
多个因素的定量化计算,是线性模型的最主要用途。
在研究一个问题时,从某种理论或假定出发,得到一个模型。根据这个模型,我们感兴趣的某个量有其理论值,同时可以对这个量进行实际观测,而得出其观测值。由于种种原因,如模型不完全正确以及观测有误差,理论值与观测值会有差距,这差距的平方和
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
为什么要做最优化呢?因为在生活中,人们总是希望幸福值或其它达到一个极值,比如做生意时希望成本最小,收入最大,所以在很多商业情境中,都会遇到求极值的情况。
最优化练习题
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
用一个数字描述一组数字的特征。用一个数字来归纳一组数字,这个数字称为统计量或统计指标。
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
数据整理是数据分析之前必要的工作。
1. 使用 pandas 中的函数,下载上证综指过去一段时间的数据,进行数据探索。
上证综指,全称是上海证券综合指数,是以上证所挂牌上市的全部股票为计算范围,以发行量为权数的加权综合股价指数。这一指数自1991年7月15日起开始实时发布,基日定为1990年12月19日,基日指数定为100点。
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
为什么要做数据可视化?因为可视化后获取信息的效率高。为什么可视化后获取信息的效率就高?因为人眼是个高带宽的巨量信号输入并行处理器,具有超强的模式识别能力,对可视符号的感知速度比对数字或文本快多个数量级,而可视化就是迎合了人眼的这种特点,才使得获取信息难度大大降低。(获取信息难度大大降低,也就是学习难度降低,也就能以有限的精力学到更多的东西,从而提高学习效率,所以可视化做得好就可以大大提高学习效率……)