更新时间:2022-11-08 来源:黑马程序员 浏览量:
当我们日常用Python做数据分析的时候,会利用Python的基础语法来实现我们需要的功能。除此之外,技术人员也会通过第三方库已经封装的功能,更快速、高效地处理和分析数据。Python常见的数据分析库包括Pandas、NumPy、SciPy、Statsmodels、Gensim、scikit_learn。
Pandas(Python Data Analysis Library)是一个用于Python数据分析的库,Pandas主要的作用是进行数据分析和预处理。和R语言中的数据框类似,Pandas可以提供用于进行结构化数据分析的二维表格型数据结构,可以处理类似于数据库中的切片、切块、聚合、选择子集等比较精细化的操作,来进行数据分析。同时,Pandas还可以提供时间序列的功能,这项功能在金融行业的数据分析中是比较常见的。
Python中用于进行科学计算的基础库NumPy(Numeric Python),是Python用来进行数据计算的关键库之一,也是许多第三方库的依赖库。
SciPy(Scientific Computing Tools for Python),这是一组针对解决不同场景科学和工程计算的库,该库在数学、函数等有关方面应用的效果更为显著,比如我们知道的求解微分方程和积分等。
Statsmodels是以Python语言为基础的统计建模和计量经济学库,其中包含统计模型估计和统计测试、描述性统计,集成了时间序列分析模型、非参数估计、生存分析、线性回归模型、离散数据分布模型、主成分分析以及核密度估计,兼有广泛的统计测试和绘图功能。
Gensim,业内公认的专业主题模型Python语言库,用来提供可扩展统计语义、分析纯文本语义结构以及检索语义上类似的文档。同学们可以在终端命令行中使用pip install gensim命令安装该库。
scikit_learn(简称sklearn),该库是Python中用来进行数据挖掘和机器学习的主要库之一。可以说它是一个以Python语言为基础的机器学习工具库,库中内置了监督式学习和非监督式学习两类机器学习方法,包括各种回归、k近邻、决策树、叶贝斯、聚类、分类、流失学习、混合高斯模型、人工神经网络、集成方法等主流分析方法;同时支持预置数据集、数据预处理、模型选择和评估等方法,是一个非常完整的机器学习工具库。
以上这些库除了Gensim外,均在Anaconda中默认安装了,在Python数据分析中,通常还会涉及到数据读写与预处理、可视化和与其他程序进行交互的库,后续笔者会一一介绍。
【AI设计】北京143期毕业仅36天,全员拿下高薪offer!黑马AI设计连续6期100%高薪就业
2025-09-19【跨境电商运营】深圳跨境电商运营毕业22个工作日,就业率91%+,最高薪资达13500元
2025-09-19【AI运维】郑州运维1期就业班,毕业14个工作日,班级93%同学已拿到Offer, 一线均薪资 1W+
2025-09-19【AI鸿蒙开发】上海校区AI鸿蒙开发4期5期,距离毕业21天,就业率91%,平均薪资14046元
2025-09-19【AI大模型开发-Python】毕业33个工作日,就业率已达到94.55%,班均薪资20763元
2025-09-19【AI智能应用开发-Java】毕业5个工作日就业率98.18%,最高薪资 17.5k*13薪,全班平均薪资9244元
2025-09-19