京东h5st加密参数分析与批量商品价格爬取
@[TOC]
【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作!
作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除!
1. 写在前面
前几天有一位小伙伴找到作者,想要批量查询获取商品的价格信息!做过电商类的都知道,这类网站风控基本是非常严格的!持续对抗也是长久的,特别对于大批量采集的场景还是有一定难度的!
大家感兴趣的可以在招聘类平台查看一下爬虫工程师的这个岗位目前的一些要求,会发现大部分要求有电商类数据的抓取经验!足以证明其中的价值与难度
2. 接口分析
打开网站刷新,找到可以批量提交商品SkuId获取价格的getPriceInfo接口,如下所示:
上图h5st的版本是4.2的,正是作者前几天分析的版本!目前仍然可以持续使用,而且风控算是较低的,成功率很是蛮高的
目前再看也是发现更新到了4.7的一个版本,不过算法内修改的东西无需太多,略微的调整算法即可覆盖,效果文末会有演示
另外同样需要注意的一个参数x-api-eid-token,这个参数不携带的话会出现风控,这个也是通过算法自动生成的,最好能成搞动态
目前再看也是发现更新到了4.7的一个版本,不过算法内修改的东西无需太多,略微的调整算法即可覆盖,效果文末会有演示
另外同样需要注意的一个参数x-api-eid-token,这个参数不携带的话会出现风控,这个也是通过算法自动生成的,最好能成搞动态
如果加密算法有问题,这个时候就会遇到常见的601,如下所示:
priceBySkusCB({
"code": 601,
"msg": "活动太火爆了,已优先为您接入快速通道,稍安勿躁,请返回上一页重新尝试下"
});
直接拿商品ID去页面比对一下,如下所示:
4. 算法还原
第一步我们先还原fp的算法,代码实现如下:
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.Random;
public class FP {
private static final Random random = new Random();
public static String r(String str, int count) {
List<Character> chars = new ArrayList<>();
for (char c : str.toCharArray()) {
chars.add(c);
}
StringBuilder result = new StringBuilder();
while (result.length() < count) {
int randomIndex = random.nextInt(chars.size());
result.append(chars.remove(randomIndex));
}
return result.toString();
}
public static String k(String str, int count) {
List<Character> chars = new ArrayList<>();
for (char c : str.toCharArray()) {
chars.add(c);
}
StringBuilder result = new StringBuilder();
while (result.length() < count) {
int randomIndex = random.nextInt(chars.size());
result.append(chars.get(randomIndex));
}
return result.toString();
}
public static String o(String str1, String str2) {
List<Character> arr1 = new ArrayList<>();
for (char c : str1.toCharArray()) {
arr1.add(c);
}
List<Character> arr2 = new ArrayList<>();
for (char c : str2.toCharArray()) {
arr2.add(c);
}
StringBuilder result = new StringBuilder();
for (char c : arr1) {
if (!arr2.contains(c)) {
result.append(c);
}
}
return result.toString();
}
// 方法 getFp42: 生成一个特定格式的字符串
public static String getFp42() {
String d = "6d0jhqw3pa";
String s = r(d, 4);
int a = random.nextInt(10);
String v = o(d, s);
String l = k(v, a) + s + k(v, 12 - a - 1) + a;
List<Character> h = new ArrayList<>();
for (char c : l.toCharArray()) {
h.add(c);
}
List<Character> f = new ArrayList<>(h.subList(0, 14));
List<Character> i = new ArrayList<>(h.subList(14, h.size()));
List<Character> p = new ArrayList<>();
while (!f.isEmpty()) {
p.add(Character.forDigit(35 - Character.digit(f.remove(f.size() - 1), 36), 36));
}
p.addAll(i);
StringBuilder result = new StringBuilder();
for (char c : p) {
result.append(c);
}
return result.toString();
}
public static void main(String[] args) {
System.out.println(getFp42());
}
}
接下来实现h5st参数中核心算法,代码实现如下所示:
import java.nio.charset.StandardCharsets;
import java.security.Key;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import javax.crypto.Cipher;
import javax.crypto.Mac;
import javax.crypto.spec.IvParameterSpec;
import javax.crypto.spec.SecretKeySpec;
public class HashingExample {
private static final byte[] IV = "0102030405060708".getBytes(StandardCharsets.UTF_8);
//AES 加密
private static final String ALGORITHM = "AES/CBC/PKCS5Padding";
public static String encrypt(String plaintext, String key) throws Exception {
Key aesKey = new SecretKeySpec(key.getBytes(StandardCharsets.UTF_8), "AES");
IvParameterSpec ivSpec = new IvParameterSpec(IV);
Cipher cipher = Cipher.getInstance(ALGORITHM);
cipher.init(Cipher.ENCRYPT_MODE, aesKey, ivSpec);
byte[] encryptedBytes = cipher.doFinal(plaintext.getBytes(StandardCharsets.UTF_8));
return bytesToHex(encryptedBytes);
}
// AES 解密
public static String decrypt(String ciphertext,String key) throws Exception {
Cipher cipher = Cipher.getInstance("AES/CBC/PKCS5Padding");
SecretKeySpec secretKeySpec = new SecretKeySpec(key.getBytes(), "AES");
IvParameterSpec ivParameterSpec = new IvParameterSpec(IV);
cipher.init(Cipher.DECRYPT_MODE, secretKeySpec, ivParameterSpec);
byte[] decryptedBytes = cipher.doFinal(ciphertext.getBytes());
return new String(decryptedBytes);
}
// 计算字符串的 MD5 哈希值
public static String md5(String input) throws NoSuchAlgorithmException {
MessageDigest md = MessageDigest.getInstance("MD5");
byte[] hashBytes = md.digest(input.getBytes());
return bytesToHex(hashBytes);
}
// 计算字符串的 SHA-512 哈希值
public static String sha512(String input) throws NoSuchAlgorithmException {
MessageDigest md = MessageDigest.getInstance("SHA-512");
byte[] hashBytes = md.digest(input.getBytes());
return bytesToHex(hashBytes);
}
// 计算字符串的 SHA-256 哈希值
public static String sha256(String input) throws NoSuchAlgorithmException {
MessageDigest md = MessageDigest.getInstance("SHA-256");
byte[] hashBytes = md.digest(input.getBytes());
return bytesToHex(hashBytes);
}
// 使用 HmacSHA256 算法计算消息的哈希值
public static String hmacSha256(String key, String message) throws Exception {
Mac hmac = Mac.getInstance("HmacSHA256");
SecretKeySpec secretKey = new SecretKeySpec(key.getBytes(), "HmacSHA256");
hmac.init(secretKey);
byte[] hashBytes = hmac.doFinal(message.getBytes());
return bytesToHex(hashBytes);
}
// 使用 HmacMD5 算法计算消息的哈希值
public static String hmacMd5(String key, String message) throws Exception {
Mac hmac = Mac.getInstance("HmacMD5");
SecretKeySpec secretKey = new SecretKeySpec(key.getBytes(StandardCharsets.UTF_8), "HmacMD5");
hmac.init(secretKey);
byte[] hashBytes = hmac.doFinal(message.getBytes());
return bytesToHex(hashBytes);
}
// 使用 HmacSHA512 算法计算消息的哈希值
public static String hmacSha512(String key, String message) throws Exception {
Mac hmac = Mac.getInstance("HmacSHA512");
SecretKeySpec secretKey = new SecretKeySpec(key.getBytes(), "HmacSHA512");
hmac.init(secretKey);
byte[] hashBytes = hmac.doFinal(message.getBytes());
return bytesToHex(hashBytes);
}
// 将字节数组转换为十六进制字符串
private static String bytesToHex(byte[] bytes) {
StringBuilder result = new StringBuilder();
for (byte b : bytes) {
result.append(Integer.toString((b & 0xff) + 0x100, 16).substring(1));
}
return result.toString();
}
}
接下来使用Java编写完整的爬虫代码,调用算法进行接口的请求,首先我们需要生成随机字符跟时间戳,代码实现如下:
String random = generateRandomString(10);
long timeStamp = System.currentTimeMillis();
SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMddHHmmss");
String ts = sdf.format(new Date(timeStamp)) + Long.toString(timeStamp).substring(10) + "74";
接下来需要获取加密必要的参数,调用加密算法生成加密参数,核心实现代码实现如下:
String pin = getCookieValue(cookie, "pt_pin");
String response = getEncDataJson(pin, appid, ip, random, ua);
String fp = extractText(response, "fp\":\"", "\"");
String tk = extractText(response, "\":{\"tk\":\"", "\"");
String rd = extractText(response, "rd='", "'");
String method = extractText(response, "algo.", "(");
String encData = tk + fp + ts + appid + rd;
String key = "";
if (method.equals("HmacSHA256")) {
key = HashingExample.hmacSha256(tk, encData);
} else if (method.equals("HmacMD5")) {
key = HashingExample.hmacMd5(tk, encData);
} else if (method.equals("HmacSHA512")) {
key = HashingExample.hmacSha512(tk, encData);
} else if (method.equals("MD5")) {
key = HashingExample.md5(encData);
} else if (method.equals("SHA512")) {
key = HashingExample.sha512(encData);
} else if (method.equals("SHA256")) {
key = HashingExample.sha256(encData);
}
继续对Body字符串进行sha256加密,从而生成最终的加密数据计算哈希值,代码实现如下:
String bodySign = HashingExample.sha256(body);
encData = key + "appid:" + reqAppid + "&body:" + bodySign + "&functionId:" + functionId + "&jsonp:" + jsonp + key;
String s = HashingExample.sha256(encData);
将所有上面环节中,组合成最终的h5st参数字符串,完成!!
对于目前最新的4.7版本的,同样算法也可以使用。但是偶尔会出现601风控,如下所示:
针对4.2的版本,同样也是可行的,而且风控相对更低一些。作者测试了批量的商品价格请求,很稳!如下所示:
转载自:https://juejin.cn/post/7371777383588937791