There are questions remain, We'll search for the answers together. But one thing we known for sure,the future is not set!

【原创文章】超大型excel文件显示“文件未完全加载”的解决办法

数据分析 百蔬君 22251℃ 已收录 0评论

随着年龄的增长,很多事情不记下来又很容易忘记,还是老话说的好,“好记性不如乱笔头”,于是又把我前几天遇到的一件事乖乖的记下来,以供以后参考。

BSA分析的相关结果数据是很大的,特别是筛选出来的那些候选基因位置和注释文件,没有过滤之前动不动就是几百M。

前几天我用excel打开一个bsa候选基因清单文件,结果出现了很多问题。

首先出现了文件格式和扩展名不匹配的错误提示,之后出现了“文件未完全加载”的错误。

把我折腾了老半天,刚刚开始我还以为他这个文件是老版本的excel生成的xls文件,想尽各种办法转换格式都是失败的。

偶然的机会我才发现原来这些文件本来就是文本文件格式,各列用制表符或者空格符号隔开,这样的文件excel是可以识别的,但是最多也只能识别1048576,这个是excel程序本身的原因,那么怎么查看其余没有显示的数据呢?

我找到了一个解决办法,那就是用access,我是这样干的。

首先把这个excel文件,比如bsa.snpindex.xls重命名为snpindex.txt,这里请明确只保留一个“.”,否则access不认!

打开access,我的是2016版本的。

点击并创建“桌面空白数据库”

之后在菜单中点击”外部数据“,选择导入”文本文件“。

这里的文件选择刚刚重命名的txt文件。

一定要选择”带分隔符“

这里选择”制表符“,根据自身情况决定是否选择”第一行包含字段名称“,我这里需要选择!

这样就把整个数据导入到了access中

从这里导出为excel文件,诚然这肯定是excel的格式,已经不是文本格式的文件了,但是和开始一样,最多也只能导出1048576条记录!出现”由于工作页行数限制,出现行丢失“错误,那么这里,我们需要对结果进行筛选,然后导出。

根据我的实际情况,我选择按照染色体来筛选。这里有一点必须明确:使用access的筛选功能得到的数据是不能导出的,我们必须使用access的查询功能来获取相应数据。

第一步,菜单栏点击”创建“-”查询向导“

选择”简单查询向导“

这里需要强调,一定要把所有的”可用字段“选择,放到”选定字段“那边去,这样我们的数据才不会丢失

走完流程之后,会在”查询“下面建立一个上面的表的拷贝,我这里是”BSA查询“,因为我们没有输入条件,所以和”BSA表“的内容是一模一样的。

第二步,进行筛选,在”Bsa查询“点击右键,在弹出菜单中选择”设计视图“

弹出”bsa查询“表的设计视图

在”chr“字段的条件中输入”Chr01“,然后点击顶部”设计“栏中的运行,那么”BSA查询”表中的数据就全部是Chr01的数据了,这时再使用“外部数据”中的导出excel工具,就可以得到全部的Chr01的相关数据,按此类推,导出所有染色体的相关信息,也就成功把一个大型的excel文件分解成多个可以桌面打开的excel文件了。

 

 

 

 

 

 

转载请注明:百蔬君 » 【原创文章】超大型excel文件显示“文件未完全加载”的解决办法

喜欢 (27)or分享 (0)
发表我的评论
取消评论

请证明您不是机器人(^v^):

表情