在浏览 ASF Github 的时候发现了有 ASF 作者 JustArchi 参与封装的 python 版 ASF API  deluxghost / ASF_IPC

A simple asynchronous Python 3.6+ wrapper of ArchiSteamFarm IPC API

Powered by aiohttp, ASF_IPC is now fully asynchronous. Synchronous methods are no longer supported. ASF_IPC resolves APIs automatically from the new swagger API of ASF, so ASF_IPC always has the latest APIs data as long as ASF is updated.

本来打算用 pyTelegramBotAPI 写一个只包含 redeem 和 addlicense 指令的机器人,配合 azhuge233 / SteamDB-FreeGames (或 azhuge233 / SteamDB-FreeGames-dotnet)更加快速便捷地喜加一。但 ASF_IPC 使用了 asyncio 异步,而 pyTelegramBotAPI 对异步支持不是很好(我又懒得学支持异步的 TelegramBot 库),遂作罢

ASF_IPC 的作者同时给出了现成的使用此库实现的 Telegram 机器人 deluxghost / simple-asf-bot

Send commands to ASF in Telegram.

simple-asf-bot 需要 python 3.6 以上版本,并基于 Telegram 异步机器人 aiotg 和 ASF_IPC

下文将部署 simple-asf-bot

环境

  • Debian Buster
    • PVE 5.4.44-2

参考

步骤

PVE 基于 Debian 10,其自带了 3.6 以上版本的 python

  1. 下载源码
    • 执行
      git clone https://github.com/deluxghost/simple-asf-bot.git
  2. 安装依赖
    • 执行
      cd ./simple-asf-bot
      python3 -r ./requirements.txt
  3. 配置运行信息
    • 打开 simple-asf-bot 根目录的 simple.conf,填写
      • bot_token(机器人 token)
      • admin_id(你的 Telegram 账号 ID)
      • address(部署 ASF 机器的 IP)
      • password (ASF 登录密码)
  4. 测试运行
    • 执行
      python3 ./simple.py ./simple.conf
  5. 设置系统服务(systemd)
    • 为了方便管理(开机启动、查看日志),建议注册 simple-asf-bot 为系统服务
    • /etc/systemd/system/ 下新建配置文件 ASFIPC.service,写入以下内容
      [Unit]
      Description=Teletgram ASF Bot
      After=network-online.target
      
      [Service]
      User=root
      ExecStart=/usr/bin/python3 [your path]/simple.py [your path]/simple.conf
      Restart=on-failure
      
      [Install]
      WantedBy=multi-user.target
    • 启动服务并设置开机自启,执行
      systemctl enable ASFIPC.service
      systemctl start ASFIPC.service
    •  查看运行情况,执行
      systemctl status ASFIPC.service
  6. 直接将指令发送至 Telegram Bot 即可
    • 不需要添加 Telegram 机器人指令的斜杠 “/”,simple-asf-bot 中使用的正则不会检测斜杠
    • simple-asf-bot 接受 ASF 的所有指令,因为其只是将指令字符串发送到 ASF 的 API,再将执行结果字符串传回 Telegram Bot,中间没有进行二次加工

Continue reading “Telegram Bot 管理 ArchiSteamFarm”

昨天用 dotnet core 把在 python 下实现的爬虫重写了一遍,体验很好( Linq + HtmlAgilityPack + ScrapySharp ),做一些零碎的记录

轮子的选择

以下涉及到的库均可以使用 Nuget 安装

HTML 爬取库

如果遇到没有 DDOS 防护的静态页面,在 python 下用 urllib 库发送请求即可获取网页代码

// ...
req = request.Request(url, headers=HEAD)
response = request.urlopen(req)
html = response.read().decode('utf-8')
// ...

在 dotnet 下同样可以使用自带的 WebClient、WebRequest 实现,但既然使用了 ScrapySharp 这个解析库(原因见下文),这里也可以使用 ScrapySharp 自带的 Web Client 实现

using ScrapySharp.Network;
// ...
var browser = new ScrapingBrowser();
WebPage page = browser.NavigateToPage(new Uri("your url here"));
var html = page.Content;
// ...

除此之外,python 下万能的浏览器自动化工具 selenium 也同样支持 dotnet core,区别在于一些 Options 的添加

在 python 下(使用 Chrome)

chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
prefs = {'profile.managed_default_content_settings.images': 2} # 不加载图片
chrome_options.add_experimental_option('prefs', prefs)
browser = webdriver.Chrome(options=chrome_options)

在 dotnet core 下,同样的打开方式变成了

var chromeOptions = new ChromeOptions();
chromeOptions.AddArgument("--no-sandbox");
chromeOptions.AddArgument("--disable-dev-shm-usage");
chromeOptions.AddUserProfilePreference("profile.managed_default_content_settings.images", 2); //这里
var mychrome = new ChromeDriver(chromeOptions);

HTML 解析库

对于 python 下常用的 html 解析库 BeautifulSoup4,在 dotnet core 下我选择了 HtmlAgilityPack

在 python 下,我通常使用以下方法将获取到的 html 源代码解析为 lxml (或其他)格式

# ...
soup = BeautifulSoup(html, 'lxml')
# ...

现在在 dotnet core 下,变成了

using HtmlAgilityPack;

// ...
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);
///
htmlDoc.Load("/your/path/here/pageSource.html");
从文件中加载
///
// ...

HAP 默认使用 XPath 语法(在 XML 文档中查找信息的语言),且暂不支持 CSS 选择器

例如在 python 中,我通常以下面的手法筛选信息

# ...
result = soup.select("div.xxxclass")
# ...

因为懒得学习 XPath想尽快尝试 dotnet core 的爬虫,ScrapySharp 出现了,此框架是对 HtmlAgilityPack 的一次扩展,添加了其缺少的 CSS 选择器,并且自带一个 Web Client 用来获取网页代码

安装之后就可以使用 CssSelect 方法筛选网页代码

using ScrapySharp.Extensions;
// ...
var result = htmlDoc.DocumentNode.CssSelect("table tr.app");
// ...

稍微熟悉 XPath 语法后,也可以很方便提取信息,如下(单个节点中的信息):

using HtmlAgilityPack;
// ...
string subID = tds[1].SelectSingleNode(".//a[@href]").Attributes["href"].Value.Split('/')[2];
string name = tds[1].SelectSingleNode(".//b").InnerText;
string URL = tds[0].SelectSingleNode(".//a[@href]").Attributes["href"].Value.Split('?')[0];
// ...

Continue reading “从 Python 向 Dotnet Core 的爬虫迁移记录”