精通数据科学 从线性回归到深度学习 数据科学入门到实战教程书籍基于Python建模 人工智能机器学习算法教程书 数据工程入门
精通数据科学 从线性回归到深度学习 数据科学入门到实战教程书籍基于Python建模 人工智能机器学习算法教程书 数据工程入门
商品基本信息,请以下列介绍为准 |
精通数据科学 从线性回归到深度学习 |
其他参考信息(以实物为准) |
1.在数据学科的角度,融合了数学、计算机科学、计量经济学的精髓。 2.为读者阐释了数据科学所要解决的核心问题—数据模型、算法模型的理论内涵和适用范围 3.以常用的IT工具—Python为基础,教会读者如何建模以及通过算法实现数据模型,具有很强的实操性。 4.本书还为读者详解了分布式机器学习、神经网络、深度学习等大数据和人工智能的前沿技术。 中国工程院院士、第三世界科学院院士、前中国科学院计算技术研究所所长李国杰, 易选股金融智能证券董事长,键桥通讯董事易欢欢作序推荐; 复旦大学教授、博士生导师、复旦大学航空航天数据研究中心主任杨卫东, 美国罗格斯大学管理科学及信息系统系终身教授,中国计算机学会大数据专家委员会委员林晓东,诚意推荐。 |
本书全面讲解了数据科学的相关知识,从统计分析学到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。 本书可作为数据科学家和数据工程师的学习用书,也适合对数据科学有强烈兴趣的初学者使用,同时也可作为高等院校计算机、数学及相关专业的师生用书和培训学校的教材。 |
1.2.1 机器学习与传统编程 5 1.2.2 监督式学习和非监督式学习 8 第 2章 Python安装指南与简介:告别空谈 12 2.1.3 不可能绕过的第三方库 17 第3章 数学基础:恼人但又不可或缺的知识 36 3.2.1 定义概率:事件和概率空间 47 3.2.2 条件概率:信息的价值 48 3.2.3 随机变量:两种不同的随机 50 3.3.1 导数和积分:位置、速度 55 3.3.5 极值与最值:最优选择 59 第4章 线性回归:模型之母 62 4.1.1 从机器学习的角度看这个问题 66 4.1.2 从统计学的角度看这个问题 69 4.2 上手实践:模型实现 73 4.3.1 过度拟合:模型越复杂越好吗 84 4.3.2 模型幻觉之统计学方案:假设检验 87 4.3.3 模型幻觉之机器学习方案:惩罚项 89 第5章 逻辑回归:隐藏因子 97 5.1 二元分类问题:是与否 98 5.1.2 窗口效应:看不见的才是关键 100 5.1.4 参数估计之似然函数:统计学角度 104 5.1.5 参数估计之损失函数:机器学习角度 104 5.1.6 参数估计之最终预测:从概率到选择 106 5.1.7 空间变换:非线性到线性 106 5.2 上手实践:模型实现 108 5.2.1 初步分析数据:直观印象 108 5.3 评估模型效果:孰优孰劣 118 5.4 多元分类问题:超越是与否 127 5.4.1 多元逻辑回归:逻辑分布的威力 128 第6章 工程实现:计算机是怎么算的 138 6.1 算法思路:模拟滚动 139 6.2 数值求解:梯度下降法 141 6.3 上手实践:代码实现 142 6.4 更优化的算法:随机梯度下降法 153 第7章 计量经济学的启示:他山之石 159 7.1 定量与定性:变量的数学运算合理吗 161 7.3.1 定量变量转换为定性变量 171 7.5 多重共线性:多变量的烦恼 176 7.6 内生性:变化来自何处 191 第8章 监督式学习: 目标明确 202 8.1.3 从几何直观到最优化问题 207 8.1.7 支持向量学习机与逻辑回归:隐藏的假设 213 8.2.1 空间变换:从非线性到线性 216 8.2.4 核函数的定义:优化运算 221 8.3.4 决策树预测算法以及模型的联结 231 第9章 生成式模型:量化信息的价值 246 9.3.2 线性判别分析与逻辑回归比较 269 9.4.6 股票市场:非监督式学习 284 第 10章 非监督式学习:聚类与降维 290 第 11章 分布式机器学习:集体力量 325 11.2 最优化问题的分布式解法 341 11.3 大数据模型的两个维度 344 第 12章 神经网络:模拟人的大脑 353 12.4 提高神经网络的学习效率 373 第 13章 深度学习:继续探索 383 13.1 利用神经网络识别数字 384 |
唐亘,数据科学家,专注于机器学习和大数据。曾获得复旦大学的数学和计算机双学士学位;巴黎综合理工的金融硕士学位;法国国立统计与经济管理学校的数据科学硕士学位。热爱并积极参与是Apache Spark和Scikit-Learn等开源项目。作为讲师和技术顾问,为多家机构(包括惠普、华为、复旦大学等)提供百余场技术培训。此前的工作和研究集中于经济和量化金融,曾参与经济合作与发展组织(OECD)的研究项目并发表论文,并担任英国知名在线出版社Packt的技术审稿人。 |
随着移动互联和大数据的拓展越发觉得算法以及模型在设计和开发中的重要性。不管是现在接触比较多的安全产品还是大互联网公司经常提到的人工智能产品(甚至人类2045的的智能拐点时代)。都基于算法及建模来处理。
常见的词汇:机器学习、数据建模、关联分析、算法优化等等,而这些种种又都是基于规律的深度开发(也难怪道德经的首篇就提出道可道非常道,名可名非常名的说法),不管是线性还是非线性,总之存在关联关系,而我们最好理解的就是线性关系,简单的用个函数就能解决。比如我们生活中应用的比较的归纳总结,其实就是数学统计学的分支(所以有人直白的说:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有判断都是统计学。)
工作机制:这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K – 近邻算法、逻辑回归等。
工作机制:在这个算法中,没有任何目标变量或结果变量要预测或估计。这个算法用在不同的组内聚类分析。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。非监督式学习的例子有:关联算法和 K – 均值算法。
工作机制:这个算法训练机器进行决策。它是这样工作的:机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的商业判断。 强化学习的例子有马尔可夫决策过程。
这里是一个常用的机器学习算法名单。这些算法几乎可以用在所有的数据问题上:
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。