账号情报的数据清洗、入库流程和性能优化
最近拿到一批泄漏的 url - 账号 - 密码情报 为 txt 格式 夹杂大量脏数据 通过几次试错成功打通了数据读取 -> 数据清洗 -> 数据入库 -> 后处理(去重、优化)的整个流程 这篇文章是对这一个过程中的思考、产出的记录 # 基础设施 # 选型 & 搭建 使用的数据库选择了 clickhouse 作为列存储数据库 clickhouse 天生就比 mysql 这种行存储数据库精通于处理大量的数据 最直观的表现就是快 两百多万条测试数据只用了 15s 就能插入完毕 单条件查询十万条数据 处理时长也只需要三百毫秒 搭建: 官方提供了...
more...