推荐系统的文献汗牛充栋,大家对此应该都不陌生。之所以选这个题目一是简单,在一周多晚上十点以后的自由时间里,只有选简单的题目才能完成,即便如此,依然捉襟见肘;二是希望好好研究下数据,一步步推到推荐系统的设计,而不是像以前直奔算法,当然也是时间原因,这里对数据的探索也是远远不够的。
本文前面探索阶段所用的数据集太大,导致多个分析运行一天也出不了结果,所以后面在推荐系统的建模中,又换成了较小的 MovieLens 1M 数据集。
注:该文是上了开智学堂数据科学入门班的课后做的笔记,主讲人是肖凯老师。
机器学习、统计模型和数据挖掘有什么异同?
机器学习和统计模型区别不是很大,机器学习和统计模型中的回归都一样,底层算法都是差不多的,只是侧重点不一样,在统计学的角度,回归主要解决的问题侧重点在于模型的解释能力,关注的是 x 和 y 之间的关系,关注的更多是系数,从机器学习的角度看,关注的重点是预测的准确性。
注:该文是根据开智学堂数据科学入门班的讲课内容整理而成,主讲人是肖凯老师。
主要学习用 statsmodels 模块进行线性回归、逻辑回归和时间序列分析。
多个因素的定量化计算,是线性模型的最主要用途。
在研究一个问题时,从某种理论或假定出发,得到一个模型。根据这个模型,我们感兴趣的某个量有其理论值,同时可以对这个量进行实际观测,而得出其观测值。由于种种原因,如模型不完全正确以及观测有误差,理论值与观测值会有差距,这差距的平方和
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
为什么要做最优化呢?因为在生活中,人们总是希望幸福值或其它达到一个极值,比如做生意时希望成本最小,收入最大,所以在很多商业情境中,都会遇到求极值的情况。
最优化练习题
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
用一个数字描述一组数字的特征。用一个数字来归纳一组数字,这个数字称为统计量或统计指标。
注:该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师。
数据整理是数据分析之前必要的工作。