一个 Cloudflare Worker 项目杂记
介绍 TS 和 hono 的一些内容, 以及基于 ts + hono 在 worker 上实现用户认证和 stripe 对接等内容.
介绍 TS 和 hono 的一些内容, 以及基于 ts + hono 在 worker 上实现用户认证和 stripe 对接等内容.
近期在调查 RAG + LLM 在 APP/网站 数据分析方向上的可行性和实践, 本文是一个记录性质的文章, 主要记录基础学习过程中的一些要点.
因此内容比较杂乱, 后续进行整理.
在之前的文章中已介绍过 polars 的基础知识, 这篇文章主要从实践出发, 回顾 polars 基础, 并延展出一些实践内容.
二次回顾: Polars 是一个数据操作和转换的基础框架, 特点是高性能, 面向单机, 并提供特别的 lazy API(能够在 query 构造过程对其进行性能优化) 进一步提升性能. 相比 pandas 更年轻, 其中概念和 pandas 很多都是共通的, rust 编写, 提供面向多种语言的 lib 可供使用.
Mermaid 是一个支持 UML 及 C4 等多种建模/图形语言的建模及沟通工具, 官网文档, 同时它也是一个开源项目, Github 地址.
判断一个工具好坏的必要非充分条件是它必须能够随时随地都可使用, Mermaid 有许多插件支持, 包括 github/gitlab/gitea 的插件支持, 以及多种本地编辑器的直接渲染支持(比如 VSCode, idea), 同时提供 mmdc
命令行工具可以将模型渲染为图片.
同时官方提供了一个 Live 编辑器: https://mermaid.live/
关于现在和未来的考虑.
Zed 是一个现代化的编辑器, 使用它只是为了提高效率.
TimescaleDB 是一个 PostgreSQL 扩展, 为基于时间序列的数据/事件数据提供高性能的实时分析能力.
在此前的官网和 APP 数据分析工作中,一直使用 Pandas 这个老牌的工具。但遇到一些问题,比如针对大数据集预处理时速度慢,内存占用大。速度慢可以通过多线程处理去解决,但这样就需要分块处理,或使用 dask 等中间层,内存占用在 Pandas 的前提下,暂时无解。
由于存在上述问题,准备在业务数据分析时引入 Polars,更好利用起来目前有限的 CPU 和内存资源。
由于数据分析和监控需要, 准备将 GA4 近期数据在本地同步拉取保存一份, 以便随时快速分析. 本地保存时, 传统数据库的速度和空间利用率无法满足需求, 因此尝试使用专用 DB 进行. InfluxDB 是满足目前需求的一个优先选择. 本文将对 InfluxDB 的用法进行简单记录.
本文介绍如何利用 Docusaurus + CF Pages 构建并发布个人技术博客, 以及技术博客编写相关技巧.