104 郾城的骄傲啊!(感谢大家,首订破千加更!)(3 / 6)
“不麻烦的,最多耽误五分钟,我引导您提交一些资料就行。”
“那行吧。”
……
十分钟后,宁为看着认证过后的微博,终于想好了措辞。
“我是宁为,刚看到整件事情,感谢大家的信任与支持。想说点什么,又不知道说什么好!那就给大家拜个早年吧!祝大家新的一年快乐能单调递增,烦恼是高阶无穷,好运连续且可导,理想一定洛必达!”
没去试图解释什么。
因为宁为发现根本没有必要,所有基于逻辑跟理性的判断,大家已经都帮他说了,再去解释自己没说那些话,有些画蛇添足了。
而且纪子珩那条最新声明已经论述了事情的前因后果,他在说一遍也没了什么意义。
就这样,挺好的!
做完这些,他便关了微博,长出了口气,开始下载今天实验室最新上传的实验数据,继续做各种记录跟比对,心情放松之下突然来了灵感,开始将所有异常数据归类,然后按照今天灵感爆棚时想到的一种数学方法进行堆栈。
很快,宁为似乎从这些纷杂的数据中找到了规律。
终于他在无数纷杂的数据中找到了一个个异常值,再次归类,宁为发现所有这些找出的异常数据在一定情况下,满足正态分布特点。
这次终于有眉目了。
对比数据的特点,宁为终于发现所有发生错误的数据同时指向算法回归部分的一个问题。
湍流算法在读取异常数据流的时候需要经过多层判定,并对初筛出的疑似爬虫或恶意连接信号做出一个预标记,并导入自己的数据库,进行下阶段的数据比对。
比如最浅层的对不合规浏览器头,或者包含了爬虫信息的浏览器头的判定,以及对某类ip一定时间内访问次数的判定等……
而在数以亿次的处理正常连接请求之后,记录下当数据对流时产生的数据特征,再跟数据库内异常数据进行比对,尝试放入,再比对,发出验证码,再比对,这一过程中,最后反馈给算法的是数据流的异常特征码,对符合异常特征码的信号进行标记,而不是标记具体的ip。
问题就出在这里,在某次次递归过程中,极少数正常的请求在比对并自动记录特征码的过程中,反馈时出了异常,这就导致同一类特性的数据全部被系统错误判定。
这个时候就体现出文档做得足够细致带来的好处了。
找到了实验室测试误判率无法降低的原因所在,修改了思路,然后只需要查阅文档,很快便精准的找到了需要修改的部分。