对于宁为来说并不认为席卷而来的绯闻是件很困惑的事情。恰好相反,对于数论中的研究才是最让他头疼的。
之所以他一直认为自己只是有了阶段性的进展,因为相对于大数据的判断跟分析来说,解决其移动跟交换能力只是最基础的部分。
这涉及到更多基本的问题,比如数据在数学上的精确定义,并且要赋予它数学上的表达,比如其数域类型的数字跟其物理纲量。同时数据的抽象表达跟其关系模型也需要重建。
比如如果把大数据定义为量和质、多样性、存储、检索、提取、计算、语义认知、维护和处理诸方面有别于无类型离散数字的超大规模异构类型化量所构成的一个超结构。那么在构建整个理论之前就需要对这个超结构有严格的定义,才能用数学语言去对整个大数据系统进行描述。
这其中蕴藏的难度是可以想象的。
大数据的基本特征是非结构化、异构、单调增长、非描述性、混合/模糊语义,且一致性随时间衰减或熵随时间增加,这些固有的复杂性和极大规模的多维超结构对象,极难定义。
罗伯特教授的论文让他想到了另一种可能。
既然从数学的角度来定义太过困难,为什么不能从机器的视角去解决这个底层难题。
如果代入机器的视角,宁为总结出了通过类别跟来源定义数据的结构
观察数据,可以包括事实,状态,跟行为;针对事实可以划分为特征、序数、基数、计数、数量;状态可以划分为存在形式、构造、状态变化;行为则可以分解为互动、规范、周期、分布、频率。
推断数据,则包含了类比、关系、测量、语义、数学、统计跟复合。
其中类比包含相似、比较、等价类;关系包含了关联、因果、映射、序列、并发;
测量包含量化、限定、缩放、标准化、加权、分类;
语义包含物理、经验、抽象、数学、规则、性质;
数学包含线性、非线性、多项式、解析、微分、积分、细化、函数系统;
统计包含概率、范数、偏差、分布、条件、随机过程;
复合则包含插值、外推、指数、幂函数、阶乘、笛卡尔积、搜索、排序、组合、排列、系统融合。
除此之外还有工程数据,社会数据等等……
灵感的发散花费了宁为太多的精力跟时间,他把自己关在了房间了整整两天时间,甚至没有时间去关注所谓绯闻带给他的影响。
事实上当进入研究状态,很容易变会产生那些乱七八糟的事情已经全部过去的错觉。
直到一通电话从国内直接打了过来。
“宁为啊,你跟那个瑞典的公主到底是怎么回事?”田导的声音听起来给他的感觉好像有些心累。
“啊?您从哪知道这事的?”宁为有些意外。
“国内自媒体都已经快集体发疯了,这两天全是你跟瑞典公主定情的消息,搞得我这个老家伙刚刚已经接到几个电话问你的事了,还有你们江大以前教授的电话。”田言真没好气的说道。
宁为皱起了眉头。倒不是导师这边的原因,关键在于既然这消息连导师都已经知道了,那么江同学大概率也已经看到了,她会怎么想?
这才是宁为没法容忍的。
“田导,我跟那位伊莎贝尔之间没有任何关系,等会去后我在跟您解释。我这边还有些重要的事。”
“没关系就行。到不是我要管你的私事,但有些问题终究比较复杂,你要想好。你有事就先忙吧,我不打搅你了。”
挂了电话,宁为关掉了正在做的数据架构构建,开始登陆国内网站了解短短两天到底发生了什么。
果然