likes
comments
collection
share

百度翻译js逆向

作者站长头像
站长
· 阅读数 26

关注它,不迷路。

本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负!

前言

目标

分析某度翻译接口,使用python获取翻译结果,并用pyinstaller打包成单文件可执行程序。

工具

chrome、pycharm、nodejs 18.16.1、python3.10

模块

  • requests:2.31.0
  • re
  • PyExecJS:1.5.1
  • js2py:0.74
  • pyinstaller:6.6.0

基本流程

百度翻译js逆向

分析方法

如何分析呢?

举个例子

进到某度翻译网站:aHR0cHMlM0EvL2ZhbnlpLmJhaWR1LmNvbS8=,f12进行抓包,尝试输入翻译的句子或词语,抓取的包如图:

百度翻译js逆向

接着我们看下该请求的具体参数:

百度翻译js逆向

百度翻译js逆向

我们发现,这是个post请求,payload中除了query字段是我们要翻译的数据,还多了其它的参数,如sign,token,ts等。

此时我们会想这些参数是如何产生的?

我们直接上手看看其是如何构造的。

所有的请求都是一个套路,所以这些参数必然是在js代码里生成,并在最终发起请求的时候带上这些参数。

因此我们可以全局搜索(ctrl+shift+f)诸如:simple_means_flag:、token:sign:ts:等关键信息。

我们直接搜索接口关键字v2transapi:

百度翻译js逆向

我们发现一个有三个疑似请求的接口,分别点击这三个链接打上断点调试,使用控制变量法定位哪里的断点有效。

发现只有第二个断点有效:

百度翻译js逆向

去掉另外两个断点,重点调试第二个断点的上下文。

百度翻译js逆向

参数生成解析

我们采取这样的方式重点分析下主要参数的生成。

获取sign值

直接搜索sign的预计会有多个,我们搜索下simple_means_flag:发现,有两个地方,其它参数包括sign刚好在其附近,分别打断点调试:

百度翻译js逆向

这里猜测signts应该是变化的值,其中ts初步猜测是时间戳,其它大概率是固定值或枚举值。

鼠标放在这个函数上,跳到这个函数所在的位置:

百度翻译js逆向

function(t)就是我们需要的函数,也就是b函数具体实现:

百度翻译js逆向

我们找到了参数生成的地方了,剩下的就是调试,将具体的代码抠出。

运行发现报错r没有定义!

百度翻译js逆向

继续在网页端断点调试,发现r是一个具体的值,多次测试后其是一个固定值。

百度翻译js逆向

我们查看源代码,r是这么定义的:

var r = null;

这就奇怪了,r的固定值320305.131321201是哪来的呢?函数b()中,还有这么一段代码:

var h = (null !== r ? r : (r = window[d] || "") || "").split(".");

这段代码的意思是:

  1. 首先,检查变量r是否不为null,如果是,则直接使用r,否则执行下一步。
  2. 如果rnull,则尝试从window对象中获取属性名为d的属性的值。如果该属性不存在或者为undefined,则将r设置为空字符串。
  3. 接着,如果r为空字符串,则将r设置为一个空字符串。
  4. 最后,将r使用.进行分割,并将结果存储在变量h中。

这段代码主要的目的是从window对象中获取一个键为d的属性的值(如果存在),并将其按.进行分割存储到数组h中。

我们在Watch中查看rd,或者在Scope中查找,发现d为字符串gtk

百度翻译js逆向

百度翻译js逆向

我们再来看这个d的定义,就在这条赋值语句的前面:

var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107))

103、116、107其实分别是g、t、k这三个字符的 ASCII 码值,也就是说,d = "gtk"

全局搜索r的值,发现其刚好是gtk的值:

百度翻译js逆向

继续在pycharm中运行,报错window未定义:

百度翻译js逆向

补充模拟window对象:

// 模拟 window 对象
var window = {
    gtk: "320305.131321201"
};

再次运行,还是报错缺少依赖函数n:

百度翻译js逆向

回到网页js,拿到n函数:

百度翻译js逆向

n 函数具体实现:

百度翻译js逆向 再次运行:

百度翻译js逆向

和页面请求一致:

百度翻译js逆向

至此,sign解析完成。

百度翻译js逆向

获取token

同样,我们仍然先全局搜索token,发现其可能是个固定值。

百度翻译js逆向

百度翻译js逆向

果然,token参数是也从window全局对象common中获取的,通过搜索发现,token其实和gtk是在同一个页面,那么一样使用正则匹配就能拿到。

Cookie反爬处理

可以直接从浏览器获取到Cookie并设置到请求头中,这种方法简单粗暴。

为了实现上的统一,这里通过urllib获取Cookie并设置到请求头中。

from urllib import request
from http import cookiejar

百度翻译js逆向

获取翻译结果

偷个懒,使用现成的网站小工具实现代码转换。https://curlconverter.com/python/

copy翻译接口的curl代码

百度翻译js逆向

curlpython代码生成某度翻译接口的python请求代码

https://curlconverter.com/python/

百度翻译js逆向

然后整合js代码,并稍作封装,即可得到翻译结果。

百度翻译js逆向

打包

基本功能没问题,我们可以进一步打包成.exe文件进行分发使用,采用tkinter进行ui可视化(yyyy.py):

百度翻译js逆向

python文件和js文件打包成单文件可执行程序:

pyinstaller --onefile --windowed --add-data="某度翻译.js;." -F -i .\xxxx.png .\yyyy.py

或者使用spec配置打包:

# -*- mode: python ; coding: utf-8 -*-


a = Analysis(
    ['yyyy.py'],
    pathex=[],
    binaries=[],
    datas=[('sign.js', '.')],  # 替换为实际的js文件名
    hiddenimports=[],
    hookspath=[],
    hooksconfig={},
    runtime_hooks=[],
    excludes=[],
    noarchive=False,
    optimize=0,
)
pyz = PYZ(a.pure)

exe = EXE(
    pyz,
    a.scripts,
    a.binaries,
    a.datas,
    [],
    name='bd翻译_公众号:海哥python',
    debug=False,
    bootloader_ignore_signals=False,
    strip=False,
    upx=True,
    upx_exclude=[],
    runtime_tmpdir=None,
    console=False,
    disable_windowed_traceback=False,
    argv_emulation=False,
    target_arch=None,
    codesign_identity=None,
    entitlements_file=None,
    icon=['xxxx.png'],  # 替换为实际的照片
)

运行:

百度翻译js逆向

最后

本文只提供一些思路,随着时间的推移,网站会维护,以上代码不会一直都有效,需要重新分析。

本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负!

今天的分享就到这里。如果觉得不错,点赞,在看,关注安排起来吧。

转载自:https://juejin.cn/post/7366899841455357962
评论
请登录