python直接查询mongodb(pymongo中聚合查询的使用方法)
python直接查询mongodb
pymongo中聚合查询的使用方法前言
在使用mongo数据库时,简单的查询基本上可以满足大多数的业务场景,但是试想一下,如果要统计某一荐在指定的数据中出现了多少次该怎么查询呢?笨的方法是使用find 将数据查询出来,再使用count() 方法进行数据统计,这个场景还好,但是如果要求其中某个字段的和呢?是不是就非得遍历出相应的数据然后再进行求和运算呢?
在mysql中我们经常会用到count、group by 等查询,在mongodb中我们也可以使用聚合查询。
假设有这样的一组数据
价格
里面记录了每种水果的价格,现在我要统计一下,各种水果在这张表中出现的次数,如果不用聚合查询的话,思路应该是这样,先把表中所有的数据都取出来,然后初始化一个字典,然后再遍历每一行的数据,获取它的fname ,然后再更新字典中的计数,这种方法的时间复杂度是o(n)的,如果数据量很大的话不是很好,下面来看一下使用聚合是怎么查询的。
聚合查询使用的是aggregate函数,它的参数是 pipeline 管道,管道的概念是用于将当前命令的输出结果作为下一个命令的参数,管道是有顺序的,比如通过第一个管道操作以后没有符合的数据那么之后的管道操作也就不会有输入,所以一定得要注意管道操作的顺序。由于对于上述问题,我们要的是所的数据统计,所以这里就不需要$match了
|
from pymongo import mongoclient client = mongoclient(host = [ '%s:%s' % (mongodbhost,mongodbport)]) g_mongo = client[mongodbname][ 'fruitprice' ] pipeline = [ { '$group' : { '_id' : "$fname" , 'count' : { '$sum' : 1 }}}, ] for i in g_mongo[ 'test' ].aggregate(pipeline): print i |
数据大家可以自已构造,这里主要是看aggregate的用法。
得到的结果是
|
{u 'count' : 8 , u '_id' : u 'banana' } {u 'count' : 9 , u '_id' : u 'pear' } {u 'count' : 14 , u '_id' : u 'apple' } |
可以看到,一步操作就可以得到相应的统计了。
如果想要获取价格在50以上的各种统计呢?
这时有pipeline应该再$group 之前加上$match 操作
|
pipeline = [ { '$match' :{ 'price' :{ '$gte' : 50 }}}, { '$group' : { '_id' : "$fname" , 'count' : { '$sum' : 1 }}}, ] |
一定要注意顺序
$match里的条件其实就和使用find函数里是一样的。
下面重点来说说$group操作,group意为分组,指数据根据哪个字段进行分组,上面使用的{'$group': {'_id': "$fname", 'count': {'$sum': 1},_id为所要分的组,这里是以fname字段分的,后面的'count': {'$sum': 1},这里的$sum就是求和的意思,后面的值是1,也就是说每出现一次就加1,这样就能达到计数的目的了,如果要计算价格 price 的和,那么这里就应该写成这样
|
{ '$group' : { '_id' : "$fname" , 'count' : { '$sum' : '$price' }}} |
注意这里的字段要有$ 的,如果我想要求价格的平均值呢?也就是先要求出价格的总数,再除以商品的个数,但是这里有一个$avg 操作
|
pipeline = [ { '$match' :{ 'price' :{ '$gte' : 50 }}}, { '$group' : { '_id' : "$fname" , 'avg' : { '$avg' : '$price' }}}, ] |
得到的结果
{u'_id': u'banana', u'avg': 66.200000000000003}
{u'_id': u'pear', u'avg': 77.0}
{u'_id': u'apple', u'avg': 74.0}
类似于$ave的操作还有很多,比较常用的是$min(求最小值),$max(求最大值)
|
pipeline = [ { '$match' :{ 'price' :{ '$gte' : 50 }}}, { '$group' : { '_id' : "$fname" , 'count' :{ '$sum' : 1 }, 'priceall' :{ '$sum' : '$price' }, 'avg' : { '$avg' : '$price' }, 'min' : { '$min' : '$price' }, 'max' : { '$max' : '$price' } } }, ] for i in g_mongo[ 'test' ].aggregate(pipeline): print i |
所有支持的操作可以参考官方文档:group 支持的操作
以哪个字段进行分组时必须使用_id。
接下来看一下多键分组。
以上在使用group 进行分组查询的时候,用到的_id都是单一字段,比如我的数据库中有如下数据
带用户的数据
带有一个user 字段了,那如果我要根据user和fname进行分组该如何操作呢?
这里可以传一个字典进去
|
pipeline = [ { '$match' :{ 'price' :{ '$gte' : 50 }}}, { '$group' : { '_id' : { 'fname' : '$fname' , 'user' : '$user' }, 'count' :{ '$sum' : 1 }, 'priceall' :{ '$sum' : '$price' }, 'avg' : { '$avg' : '$price' }, 'min' : { '$min' : '$price' }, 'max' : { '$max' : '$price' } } }, ] for i in g_mongo[ 'test2' ].aggregate(pipeline): print i |
得到的结果如下:
{u'count': 1, u'avg': 93.0, u'min': 93, u'max': 93, u'_id': {u'user': u'fanjieying', u'fname': u'pear'}, u'priceall': 93}
{u'count': 2, u'avg': 88.0, u'min': 87, u'max': 89, u'_id': {u'user': u'yangyanxing', u'fname': u'banana'}, u'priceall': 176}
{u'count': 2, u'avg': 70.0, u'min': 69, u'max': 71, u'_id': {u'user': u'yangyanxing', u'fname': u'pear'}, u'priceall': 140}
{u'count': 2, u'avg': 65.5, u'min': 58, u'max': 73, u'_id': {u'user': u'fanjieying', u'fname': u'banana'}, u'priceall': 131}
{u'count': 3, u'avg': 92.333333333333329, u'min': 86, u'max': 97, u'_id': {u'user': u'fantuan', u'fname': u'banana'}, u'priceall': 277}
{u'count': 2, u'avg': 78.5, u'min': 73, u'max': 84, u'_id': {u'user': u'yangyanxing', u'fname': u'apple'}, u'priceall': 157}
{u'count': 3, u'avg': 56.666666666666664, u'min': 51, u'max': 60, u'_id': {u'user': u'fantuan', u'fname': u'pear'}, u'priceall': 170}
{u'count': 2, u'avg': 81.5, u'min': 73, u'max': 90, u'_id': {u'user': u'fanjieying', u'fname': u'apple'}, u'priceall': 163}
{u'count': 2, u'avg': 69.5, u'min': 53, u'max': 86, u'_id': {u'user': u'fantuan', u'fname': u'apple'}, u'priceall': 139}
这里的结果显示出每个用户买了哪个商品,一共花了多少钱,最大最小平均值等都可以一次性的展示了,如果要是使用for循环自已遍历的话这种时间复杂度相当高。
这里只是简单的说了下$group和$match 的用法,聚合查询支持很多种操作(称为stages),可以通官方文档进行查看pymongo 中pipeline中的stages
参考文章
pymongo 的 group by 方法
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对开心学习网的支持。
原文链接:https://www.yangyanxing.com/article/aggregate_in_pymongo.html
- django数据库查询条件(djang常用查询SQL语句的使用代码)
- sql怎么写递归(sql server实现递归查询的方法示例)
- MongoDB的where查询
- laravel测试重连数据库(解决在laravel中leftjoin带条件查询没有返回右表为NULL的问题)
- nodejs如何识别接口(Node实现搜索框进行模糊查询)
- mysql模糊匹配语句(MySQL 数据库 like 语句通配符模糊查询小结)
- sqlserver日期转换(SqlServer 查询时日期格式化语句)
- sql怎么查询字段合并(SQL函数将某个字段合并在一起的操作)
- laravel查询数据库视图(Laravel5.7 数据库操作迁移的实现方法)
- mongodb query查询
- sql查询语句casewhen是什么意思(SQL Server中使用判断语句IF ELSE/CASE WHEN 案例)
- dedecms标签怎么用(浅析DedeCMS GBK版安装sphinx全文索引无法查询无结果的解决方法)
- mssql 存储过程查询语句(MSSQL分页存储过程完整示例支持多表分页存储)
- mysql全表查询如何优化(MySQL 分组查询的优化方法)
- laravel框架两表联查(Laravel 使用查询构造器配合原生sql语句查询的例子)
- 如何让yii2高级模板运行起来(Yii框架数据库查询、增加、删除操作示例)
- 淘宝支持账号名修改,网友 终于可以 重新做人 了(淘宝支持账号名修改)
- 盘点那些年让人称奇的年终奖 最后一个赢辣条毫无悬念(盘点那些年让人称奇的年终奖)
- 你还没有升职吗 他竟因为几套激励理论,升职了(你还没有升职吗)
- 某知名企业绩效管理体系及薪酬分配体系操作手册(某知名企业绩效管理体系及薪酬分配体系操作手册)
- 职场人改不掉这4个习惯,只会越混越穷,一辈子也翻不了身(职场人改不掉这4个习惯)
- 华为 联想等46家公司笔试面试题,涉及各行各业,建议收藏(联想等46家公司笔试面试题)
热门推荐
- python本地ocr库(详解Python安装tesserocr遇到的各种问题及解决办法)
- php中三种变量的作用区域(PHP global全局变量经典应用与注意事项分析附$GLOBALS用法对比)
- apachessl证书怎么获取(Apache SSL服务器配置SSL详解)
- jquery轮播图的左右按钮(jQuery轮播图功能实现方法)
- css line-height(CSS中的line-height行高属性学习教程)
- 网站服务器分布(10个常见网站服务器架构介绍)
- mysql的视图和临时表区别(MySQL 内存表和临时表的用法详解)
- 用javascript解析json(JavaScript JSON.stringify的使用总结)
- python 多进程读取文件(Python实现的多进程拷贝文件并显示百分比功能示例)
- 宝塔mysql怎么设置优化(宝塔面板mysql内存占用高如何优化)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9