功能定位与版本演进
hello-GPT 的「自定义知识库」在 v6.0 之前只支持单文件问答;v6.2 引入切片级溯源,v6.4.2 把向量化引擎搬到本地 GPU,官方称离线推理速度提升「肉眼可见」。核心关键词「hello-GPT如何导入自定义知识库」要解决的正是:在离线合规前提下,把 PDF、Notion、音频等 40 余种文件变成可检索、可溯源、可版本回退的私有索引。
与「TeamSpace 公共库」相比,自定义库完全驻留在用户指定路径,默认 AES-256 静息加密,支持 Git-for-Knowledge 结构,可随时 diff 回退;代价是初次向量化会占用本地算力,旧款轻薄本可能出现风扇高速运转。经验性观察:M2 Pro 16 GB 以上机型可在十分钟内完成 300 页 PDF 切片。
导入前的三件事:格式、权限、容量
1. 格式优先级决策
官方推荐顺序:TXT > Markdown > PDF 文本层 > Office > 扫描版 PDF > 音视频(语音转写)。扫描版需先 OCR,hello-GPT 内置 PaddleOCR-v4,但会多一轮「图片→文本」误差;若原始文件已含文本层,可省 30% 以上切片时间。
2. 权限最小化原则
桌面端路径:Settings → Privacy → Knowledge Base → Local Folder Permission,仅勾选「目标文件夹」;macOS 额外弹出的「Full Disk Access」可拒绝,除非你需要让软件自动监控 Downloads 全域。
3. 容量与切片颗粒度
默认切片 512 token、重叠 64 token。经验性观察:法律条文类把切片降至 256、重叠 32,可显著减少「半截法条」幻觉;技术博客可放大到 1024,降低索引体积。设置入口:Import → Advanced → Chunk Size,修改后需重建索引,无热更新。
三步完成首次导入(桌面端示例)
- 顶部导航切换到「Knowledge」标签 → 右侧「+ New Dataset」→ 命名并选择「Offline Index」。
- 拖拽文件或点击「Select Folder」→ 勾选「Auto Detect Language」→ 若含表格建议同时勾选「Retain Table Structure」。
- 点击「Start Embedding」→ 界面显示 GPU 占用曲线,完成后自动跳转「Insights」页面,可输入测试问题验证召回效果。
失败分支:若提示「Encoder initialization failed」,大概率是显存不足,可在 Settings → Index → Device 把「GPU」改为「CPU+GPU Hybrid」,或缩小 batch size 至 8 以下。
移动端补充:只能「轻量查看」
Android/iOS 目前不支持本地向量化,但可浏览已建好的索引。路径:App → Library → Offline Datasets → 选择对应库 → 顶部搜索框。若需同步自建库,须回桌面端开启「Allow LAN Sync」并保证两端登录同一账号,同步速度取决于路由器 5 GHz 信号强度。
API 批量导入:当文件数 >1000 时
官方提供 REST `/kb/create` 与 `/kb/uploadChunk` 两组端点,需先申请「Private Index API」令牌(Settings → API → Scope 勾选 Knowledge)。经验性观察:单库文件数过万时,建议先 tar 打包后上传,服务器端会自动解包,减少 HTTP 握手耗时。
版本回退与审计:Git-for-Knowledge 怎么用
每完成一次索引,hello-GPT 会在本地生成一个「commit」文件,存在安装目录/kb_git/下。点击 Dataset → History 可看到类似 Git 的 diff 视图,支持把某文件或某段落回退到旧版本,同时保留问答日志。该功能满足 SOX、HIPAA 的「留痕」要求,但注意历史快照会额外占用 15% 磁盘空间。
常见副作用与缓解
- 幻觉率反弹:切片过小→上下文断裂,可适度放大重叠长度并开启「Cross Chunk Voting」。
- GPU 占用长期 100%:把「Background Re-index」关闭,仅在你手动触发时重建。
- 搜索结果空白:检查文件编码是否 GBK,统一转 UTF-8 后重新导入。
不适用场景清单
1. 需要多人实时协同编辑源文件——应改用 TeamSpace 公共库;2. 源文件 >50 GB 单文件(如 4K raw 视频)——超出 FAT32 单文件上限且转写成本过高;3. 法规要求冷存储十年以上——本地 SSD 存在衰减风险,建议额外做磁带备份。
最佳实践 7 条速查表
| 步骤 | 检查点 | 工具/命令 |
|---|---|---|
| 1 | 文件含文本层? | PDF → 属性 → 字体列表 |
| 2 | 语言编码统一 | iconv -f GBK -t UTF-8 |
| 3 | 切片大小 | 法律 256/32,技术 1024/64 |
| 4 | GPU 显存监控 | nvidia-smi dmon |
| 5 | 首次验证问答 | 「Insights → Test Query」 |
| 6 | 打开 Git 历史 | Dataset → History |
| 7 | 磁盘快照备份 | tar -zcvf kb_backup.tar.gz kb_git/ |
FAQ(结构化数据)
导入后搜索不到内容怎么办?
先确认文件编码为 UTF-8;若源文件是扫描版,需在 Import → OCR 选择「Force OCR」;最后检查切片大小是否过小导致上下文断裂,可适度放大重叠长度。
可以一次导入整个 Notion 工作区吗?
桌面端支持 Notion 批量导出 ZIP(含 Markdown),选择「Import → From Notion ZIP」即可;若页面数 >500,建议先拆分子库,否则初次向量化可能耗时数十分钟。
索引占用空间如何估算?
经验性观察:文本类文件约为原始体积 2.5–3 倍(含向量与 Git 快照);若开启「Retain Table Structure」会再增加 15% 左右。音视频仅保存转写文本,向量体积可忽略。
回退到旧版本会影响已有问答记录吗?
不会。问答日志独立存储于 logs/ 目录,仅与 commit ID 关联;回退后新问答将指向旧内容,但历史对话仍保留原快照,方便审计。
iOS 端能否离线搜索自建库?
可以,但需通过 LAN Sync 把桌面端已建好的索引同步到手机本地;单次同步流量约为库体积的 1.2 倍,建议在 Wi-Fi 环境下操作。
收尾:下一步行动
如果你第一次使用,先选 3 份最有代表性的文件按本文「三步法」跑通;验证问答无误后,再逐步扩大文件规模并调整切片参数。记住:切片越小召回越细、索引越大;GPU 全程参与能省时间,却也会吃掉你本机的电池与风扇寿命。权衡之后,再决定是否把整柜资料一次性塞进 hello-GPT。
