Jina ReaderLM v2 测试记录

jina 出了 ReaderLM v2 版本,这个版本的 ReaderLM 在处理文本数据时更加高效和准确。
之前简单测试了下 v1, 结论是:

  • 幻觉严重, 尤其特别喜欢造 url
  • 很容易触发无限生成 比如 example1 example2…. 一直生成下去

第一眼就是不可用就没继续了。
这次 v2 来了,测试了一下,幻觉问题好了很多,无限生成测试了几个也没遇到,但最为一个 html 转 markdown 的工具还是不够稳定。
这里的稳定性主要是指,与传统的基于语法树解析的工具相比,它在处理速度和结构识别的准确性上还有差距。他的确能生成不错的 markdown,但是很容易被正确结构但是内容文本里有特殊构造的/或者有一些语法错误的 html 页面所影响。

注意:这个博客里的测试只是为了列出 v2 的一些问题,针对问题进行特殊构造的测试,实际网页可能也遇不到文中提到的问题,具体以实际场景为准了。
顺道一提,这个模型是以 CC 协议发布的,所以商用场景需要遵守相关协议。

Read More

聊一聊AWS Route 53的托管区

AWS 坑爹啊

最近查看 AWS 的账单才发现,在 route53 买的每个域名每个月都会额外收 0.5 刀,并且还有解析费,一看是因为用了托管区(hosted zone),这个收费是托管区的。

这个托管区的作用其实就是 DNS 管理,emmmmm….那可不得不迁移到赛博大善人 Cloudflare 了。

这里记录一些遇到的问题吧,并把一些概念阐述下。

Read More

在remix中谨慎使用useFetcher进行poll

问题概述

今天在开发时遇到了一个有趣的问题。我在实现一个异步任务提交和状态轮询的功能时,使用了两个 useFetcher:

  • 第一个 fetcher 用于任务提交,使用 submit 方法(这样可以触发页面 credit 的自动刷新)
  • 第二个 fetcher 用于状态轮询,使用 load 方法(因为不需要页面刷新数据)

结果发现了一个奇怪的现象:第一个任务能正常工作,但提交第二个任务后,轮询返回的却始终是第一个任务的数据, 后面也是返回的永远是第一个任务的结果.

Read More

Spring Boot Docker优雅关机总结

1. 问题背景

在 Docker 环境中运行 Spring Boot 应用时,为了确保应用能够优雅关机(Graceful Shutdown),需要正确配置多个组件。错误的配置可能导致应用无法正常接收关闭信号,从而无法执行优雅关机流程。

今天才发现服务器上配置有问题没支持, 本地是没问题的。。。最后发现是配置有问题, 这里总结一下。

日志中出现INFO o.s.b.w.e.tomcat.GracefulShutdown - Commencing graceful shutdown. Waiting for active requests to complete表示成功(我使用的是 tomcat 容器, 其他的日志内容可能不太一样)。

2. Docker 关机流程

Docker 容器的关闭过程如下:

  1. Docker 向容器的 1 号进程(PID 1)发送 SIGTERM 信号
  2. 等待 stop_grace_period 时间(默认 10 秒)
  3. 如果进程还未退出,发送 SIGKILL 信号强制终止

3. 常见配置错误

Read More

shopify CLI国内开发配置

Shopify CLI是开发Shopify应用和主题的重要工具,但在中国等网络受限地区使用时常遇到困难。
官方仓库有一些issue都提到了这些问题, 但是官方一直没有加对应的配置。
比如: [Bug]: Execute Shopify theme dev with error message: request to xxx.theme.json?xxx processing failed, reason: read ETIMEDOUT
本文将指导你如何正确配置Shopify CLI,以便在中国顺利进行Shopify开发。

主要问题

  1. Shopify CLI默认不支持配置代理
  2. 不读取系统环境变量
  3. 内置的Cloudflare tunneling在中国连接不稳定

本指南基于Shopify CLI 3.67.1版本。

Read More

Shopify App订阅 APPLY_ON_NEXT_BILLING_CYCLE实在太坑了

问题描述

最近,我们在开发Shopify应用时,遇到了一个非常恼人的问题。我们希望允许商家降级他们当前的订阅计划,但是要求降级要在下一个计费周期才生效,当前的计划应该保持不变直到下一个计费周期。

我们发现了Shopify的 APPLY_ON_NEXT_BILLING_CYCLE 替换行为,本以为这就是我们想要的功能。但是,在测试时,我们发现当前的订阅立即被取消,降级后的订阅直接变成了 ACTIVE 状态,而这个行为应该是在下一个计费周期才触发的。

Read More

playwright 一些方法解决被cloudflare block的问题

在尝试从一个使用Cloudflare Web应用程序防火墙(WAF)保护的网站获取数据时,我遇到了一些挑战.该网站的安全措施非常严格,以至于在正常浏览几个页面后,Cloudflare的检查页面就会出现.

传统的HTTP客户端方法,如直接使用httpclient来抓取页面数据,很快就会遭遇阻碍.

即便尝试使用代理IP池,问题依旧存在,因为Cloudflare的检测机制能够在短时间内多次访问后迅速触发.在多次尝试后,我决定使用playwright这个自动化库来模拟正常的浏览器行为.

虽然在使用playwright的过程中遇到了一些问题,但我最终找到了解决方案.现在,尽管速度稍慢,但我能够正常地从网站获取数据.接下来,我将分享如何克服这些挑战的经验.

Read More