我的云盘基本只存文档,免费容量19GB,所以很长时间也没关注容量。最近突然收到邮件说云盘空间不够,这我才注意到云盘已经用了16GB,仔细看了下发现里面邮件快10GB,不知啥时候备份的照片5GB(应该是之前免费存照片后来说原图占空间了),然后文档其实就1GB。图片文档我也懒得管了,但快10GB的邮箱让我有点意外,毕竟邮箱附件都是有限制的,啥玩意能这么大。
然后我就开启了邮件大扫除模式,这才注意到个人邮箱已经累积了十万封邮件。这是我个人邮箱,中间在加拿大时曾代收过学校邮件两年,之后都是严格区分工作邮箱与个人邮箱的。我出国前是清理过邮箱的,留下的应该不到千封,这就是说后面这十万封邮件都是最近十年收到的,因为我默认用归档而不是删除处理邮件,久而久之就搞成现在这样,均下来其实一天也就三十多封。
最近恰好在琢磨如何把个人数据喂给本地模型,训练一个个人助理,其中一个难点就是去哪里找个人数据。我个人数据一部分在博客对外公开,一部分在笔记,这些都好说,不过很多鸡毛蒜皮的事我不会去记但希望助理能记住,例如网购记录啥的,这些确实又个默认的去处,那就是我的个人邮箱。然而,我很清楚的是这十万封邮件里广告估计会有一多半,其中疫情期间我订阅的newsletter、基本不看的邮件列表、还有GitHub各种消息更新就占到三分之一,另外就是各种类型的广告,加起来也能占到三分之一,真正对我有用的可能有两三万封,这里面就没有绝对主力了,单一发件人发给我的邮件都是在一千封以下,但约莫一周一封倒也可以接受。我自己则发出了约2500封邮件,大概一天几封这样。这个数看上去不多,但考虑到我大多数回邮件都是用工作邮箱,个人邮箱一天几封也算不少了。
不过这次整理还是挺有收获的,很明显邮箱里的信息属于个人被动日记,里面有注册信息、忘记密码信息、购物信息、账单信息还有与外界联系信息,从里面可以大体构建出过去这些年我关注点的变化,很多是我自己意识不到的。即使是清理过的邮箱,里面未读邮件也有三四千封,这些邮件大都是起备份作用的。这部分数据配合时间戳是可以构建出一个相对清晰的个人形象的,这个个人形象可以转化存储为一个向量数据库,大语言模型可以通过接入这个数据库来更好服务我。思路有了就好办了,剩下的脏活累活都是可以让大语言模型来生成代码的。
简单说就是把所有邮件导出为mbox文件,然后把这个文件转成纯文本文件,然后导入到知识库向量化,然后就可以了。当然这个方案非常粗,想让助理更智能,就要让其更好理解邮件并做好数据清洗,向量化与提示词也有优化空间。因为邮箱是操作系统级的应用,相信今年就能看到系统级的信息整合了,特别是手机端,不过我这个应该属于邮件数比较多的,国内更容易实现的其实是基于微信聊天记录的个人助理,我见过不少人会通过给自己发语音来备忘,只是我还是倾向于本地化搜索增强生成方案或者说微调出一个个人助理。
理想中的人工智能助理,一方面要了解我的过去,另一方面要可以通过数据接口更新,还有有各种专业知识,这样只要我对其提问,他可以基于我的现状来给出回答。这里面的关键就是记忆,现在很多个人助理的记忆是用简单的标签化描述来实现,但要想真正实现外置大脑,首先自己得留有记录。不过正经人也不会写日记,这里其实需要一个被动日记,连接各种可穿戴设备与手机,实时记录,好比有个助理天天监测你的一举一动。这听上去可能还有点恐怖,但如果你需要这样的数据来认识自己并专业解读自己收到信息,可能也是可以接受的。我推测具体到每个人,能让人工智能识别为专一性回忆的东西可能不多,如果我来实现,我会选择微调模型让专一性内容内化到模型里,新增信息存到向量数据库,然后每年微调一次将记忆内化到模型里,这样有点养成系的意思了。
很多人都在说少子化的未来就是孤独死,但很明显现在你可以让一个人工智能模型进行一个角色扮演,输入你的过往就可以得到一个无话不谈的影分身朋友。赛博儿女/伴侣配合人形机器人养老很可能是几十年后很多人的唯一选择,而你不需要写自传,只需保留好个人数据。说起来我十年的邮件排除掉广告只剩了不到5G,这里面还有很多附件,纯文本送去搞向量数据库还不到150MB,因此文本角度我一辈子能生成的文本数据大概率不超过5GB,图片视频那些识别为文本后向量化后可能也不会太大。其实本来我也想顺道整理下照片,但看了下就放弃了,我看很多照片时甚至不知道是我拍的,恐怕除了人工智能也不会有人愿意去解读照片库,而这种解读抽象出来的信息可能非常有限,例如就是一句拍了张街景,其在向量数据库里也就是带着时间戳的这么一句话。因此,也许很多人照片可以按TB来计算,但抽象出可以形成记忆的信息可能非常有限,一张照片平均都可能没有一句话,也就是说一个人一辈子关于自己的电子化回忆都不一定能装满一个19GB的云盘。从这个角度,人的一生也可以描述为一段低熵信息表达,对抗宇宙的熵增大趋势,那么保留一份关于自己的向量数据库又何尝不是一种永生呢?
我前些年还在考虑遗嘱的事,现在看完全多余。不论我是否留下文字,也不论是否还有人记忆里有我的片段,关于我的记录一直都在进行中,甚至记录中提炼出的我比我自己更了解我,也不会老年痴呆。我并不需要让自己融入互联网,每个人其实都已经是互联网的一部分,很多痕迹很难彻底消除,而互联网本身的出现与扩展就是地球上人类作为总和的DNA。哪怕人类自己把自己玩灭绝了,相信更高等的智慧也能从各类遗迹里提取出一个个鲜活的个体的信息,正如在整理邮件时看到那些突然出现的一堆密码找回邮件,我就知道那一天我又清空浏览器缓存了。