1.爬虫 | Python搞定软科中国大学排名
2.大å¦å°±ç¦»ä¸å¼ç6个å°ç¥ç½ç«
爬虫 | Python搞定软科中国大学排名
大家好,大学大学我是搜索搜索搜Python当打之年
近期很多粉丝询问如何通过Python进行软科中国大学排名的爬虫分析,本期就为大家详细解析这一过程,源码源码希望对大家有所帮助,大学大学以下内容仅供参考,搜索搜索搜请勿用于其他用途。源码源码奇克入市 源码
目标网址为:shanghairanking.cn/rank...
年的大学大学中国大学排名共有所学校。
1. 网页分析
每页展示所学校信息,搜索搜索搜共页。源码源码通过翻页发现网址并未发生变化,大学大学说明页面信息是搜索搜索搜通过动态加载的方式展示的,因此无法通过get传参的源码源码方式切换网页进行爬取。通过按F或右键选择审查元素,大学大学linuxarp源码分析搜索清华大学查看网页结构,搜索搜索搜可以看到信息存储在payload.js文件中。源码源码继续分析该文件,可以发现这里有所学校的所有信息,说明网页显示的内容是通过javascript解析这个文件动态加载进去的,因此我们只需要解析这个文件即可。打boss源码
2. 解析js文件
查看学校的具体字段信息,文件内容格式不规则,既有类似json格式的信息,也有JavaScript的语法,因此不能直接使用json进行解析,这里我们使用re正则提取。解析软件源码
生成Dataframe,信息齐全,但其中包含很多a,f,e,q,[i,l,j],ei,eg,ek...等字符信息,这些应该是某些信息的替代字符,类似于函数中的形参。
继续分析payload.js文件的xscript源码破解开头部分,补充知识:NUXT_JSONP是JavaScript中的一个全局变量,在使用uxtjs架构时会自动生成,用于在客户端渲染(CSR)模式下获取服务器端渲染(SSR)的数据。在Nuxt.is的客户端渲染模式下,NUXT_JSONP变量的值是一个函数,用于将服务器端渲染的数据注入到客户端渲染的页面中。这个函数的参数是服务器端渲染的数据,返回值是将这些数据注入到页面中的代码。因此,__NUXT_JSONP__变量的类型是一个函数,可以看出现有的function和return就是内层函数(存在函数嵌套)及其返回值,那么(a,b,c,d...ps,pt,pu,pv)就是函数的参数。
文件的结尾部分,这里就是外层函数的参数,仔细对比会发现外层函数的参数和上面内层函数的参数是一一对应的,因此进行字典映射即可。
3. 变量替换
获取实际值,结果如下,保存表格数据。
4. 可视化源码+数据:
在线运行地址(含全部代码):heywhale.com/mw/project...
以上就是本期为大家整理的全部内容,赶快动手练习吧,喜欢的朋友可以点赞、收藏,也可以分享让更多人知道。更多内容敬请关注(公众号:Python当打之年)
推荐阅读:
大å¦å°±ç¦»ä¸å¼ç6个å°ç¥ç½ç«
ç¥éäºå°±ç¦»ä¸å¼çå 个å°ç¥ç½ç«!Papers With Code
æ¶åå æ¬è®¡ç®æºè§è§ãèªç¶è¯è¨ã强åå¦ä¹ ãå¾è®ºçAl é¢åç¸å ³çæä¼è®ºæå代ç ï¼éé¢å å«äºä¸ªæºå¨å¦ä¹ ä»»å¡ã个è¯ä¼°æè¡æ¦(以åå½åæä¼ç»æ)ãå论æ(带æºç )ã个æ°æ®é
èé¸æç¨
æ个人强çæ¨èç¼ç¨è¯è¨ãå·¥å ·åå¦è 使ç¨è¿ä¸ªç½ç«ï¼æ¶åPythonãjsãphpãsqlçï¼ äº¤éæ¡çæ¸ æ°ãç论ä¸å®ä¾ç¸ç»åï¼å¯¹äºè¦å¦ä¹ å ¥é¨æ项ç¼ç¨è¯è¨çåå¦æ¯ä¸ä¸ªé常å®ç¨çç½ç«
Stack Overflow
å¨å¼åå¦ä¹ æå·¥ä½è¿ç¨ä¸ï¼é¾å ä¼éå°è¿æ ·æé£æ ·çbugï¼ éè¦æ±å©ä¸ä¸ªç¤¾åºæ论åï¼ ä½æ¯ï¼ ä¸ä¸å°å¿å°±ä¼è¸©å°å¾å¤åï¼ å¨ä½¿ç¨è¿ç¨ä¸ï¼ æè§å¾Stack Overflowæ¯ä¸ä¸ªé常ä¸éçç½ç«ï¼ å ³äºç¼ç¨ï¼ å°¤å ¶æ¯Pythonç¸å ³çå¾å¤é®é¢é½å¯ä»¥æ¾å°è§£å³æ¹æ¡ï¼èä¸é常é è°±ï¼è½å¤åå°èµ°å¾å¤å¼¯è·¯ï¼èçå¾å¤æ¶é´
è«é¨è½å¿«æ
å°±å¦åç½ç«çå®æ¨æ说â让æç´¢æ´ç®åâï¼è«é¨è½çç¡®åå°äºï¼éåäºå¿«æãå¦æ¯æç´¢ã设计æç´¢ãèµæºæç´¢å 大模åï¼æç´¢åè½æ¶µçè°·æãç¾åº¦ãå¿ åºãç½çãæ°æµªçç
é¸ æ©æ书
丰å¯çä¸è±æçµå书èµæºï¼è¿å å«ä¸äºå°è¯ç§ççµå书ï¼å欢ç¨ææºæå¹³æ¿ççµå书çå¯ä»¥å¨é¸ æ©æ书ä¸æç´¢å°å¤§éæ¥èªç½åä¸ä¼ çç¾åº¦äºãå¾®ççå¹³å°ççµå书èµæº
éæ°æ®
èåäºå ¨çå¤å®¶æå¨æ°æ®åå¸æºæçæ°æ®ï¼å 容涵çäºç¤¾ä¼äºèç½ä¸éä¿¡ãç»æµä¸åä¸ç个大类ã+个åç´è¡ä¸ï¼ç¸å½ä¸é¨å为å è´¹ä¸è½½ãè·åæ°æ®å¯å«éè¿~è¿æè¶ å¥½ç¨å¯è§åå·¥å ·éæ°å¾è¡¨ï¼æé 使ç¨æ æ ç!
2024-12-22 15:24
2024-12-22 14:58
2024-12-22 14:42
2024-12-22 14:42
2024-12-22 14:06
2024-12-22 13:57