通过python爬虫免费下载唱吧某个用户的所有音乐作品_嘉艺流行音乐_流行音乐歌词大全

  准备要爬的网站是唱吧网工具:python 3.5,BeautifulSoup4注意:BeautifulSoup4为第三方类库,如果在cmd下用pip安装报错,可直接去官网下载,解压后拷贝到python安装目录中的lib目录下,通过cmd进入插件的目录,输入python setup.py install,即可安装。分析首先我们在唱吧APP进入某个自己喜欢用户的主页,点击右上角三个点,然后点击分享主页,然后点击复制链接。然后将链接在电脑浏览器打开。   此时打开的是一个手机wap页面,如下图。   此时点击随便一个用户的作品,进入作品详情页   再点击页面右上角用户头像进入了用户作品列表的PC页面   此时打开调试模式,点击页面下方加载更多按钮,发现调试栏发起了一个异步网络请求,链接如下   先分析请求链接,很明显可以猜测到pageNum后面参数就是页码。userId后面参数是用户id。   我们更换pageNum参数就可以抓取不同页码的作品,更换userId参数就可以抓取不同用户的作品。   再看返回数据结构是一个json   经过分析,很明显json结构体里面songname就是歌曲名,workid就是作品id,enworkid就是作品的别名id,通过http://changba.com/s/+拼接上这个别名id,就可以进入这个音乐作品详情页,ismv参数标识作品是mp3还是mv.   例如拿http://changba.com/s/拼接上第一个作品的enworkid即可拼接成这样一个链接http://changba.com/s/uhinUwid3m7TVE4RGKu0bw   打开这个链接分析页面html即可看到有一个audio标签或者video标签里面src即作品源文件地址,此时只需要把这个链接下载到本地即可。   还有仔细观察可知这里的媒体链接是异步加载的,所以,我们要装一个selenium webdriver模拟驱动浏览器打开页面。   核心代码如下:   运行下面让我们的爬虫跑起来,   抓取的音乐文件   怎么样,简单吗?   如果有问题可以加微信讨论   本项目仅为交流学习用,若有侵权请联系作者删除,通过本项目下载的内容请在24小时内删除。
发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章