正文之前
好久沒寫了,以后寫點日常總結吧,感覺不寫下來,會容易忘掉一些。
很喜歡的一張壁紙,希望后面買了相機也可以拍這么好看~
正文
首先直接把我對數據預處理的一些收獲貼出來:
- jieba比清華的好用,不過清華的更注重整體性,比如說在一個《》包含的文件內,不會分割
- 最終還是選擇了簡單粗暴的只留下漢字,unicode編碼真是簡單粗暴
- https://www.linuxhub.org/?p=3196 第一個方法,極其爽
jieba和thulac都無法去掉,。、“”這些符號,很奇怪,所以我才選擇的第二種方式
當然還有另外的方法
import re
r1 = '[a-zA-Z0-9’!",:#$%&\'(())*+,-—./:;;<=>?@。?★、…【】《》?“”‘’![\\]^_`{|}~]+●「」『』〖〗?????~????〝〞????□'
i = re.sub(r1,"",i)
python操作路徑: https://www.cnblogs.com/wei-li/p/2502735.html
python with的用法:
- 而使用with的話,能夠減少冗長,還能自動處理上下文環境產生的異常。如下面代碼:
with open("2.txt") as file:
data = file.read()
上面是對清華的那個文本分類數據集做預處理的時候的一些踩的坑,八十多萬個txt文件,真的搞死我。耗時最長的是刪除那些零散的txt。。兩個小時,我滴媽。。
下面是我讀取txt文件并且轉化為csv文件的踩坑:
- 超大文本寫入CSV文件的時候,可以擴容 _csv.Error: field larger than field limit (131072)
import sys
import csv
csv.field_size_limit(sys.maxsize)
- python open()打開文件之后如果用readlines(),那么會直接到文件底部,再調用這個函數就得不到任何數據了。。這個坑。。我他么,看下面代碼的精妙之處:
file = open(x, 'r', encoding='utf8')
fileLength = len(file.readlines())
file.close()
file = open(x, 'r', encoding='utf8')
fReader = csv.reader(file)
print("Now the file length is: " + str(fileLength))
for i in fReader:
if fReader.line_num ==1:
continue
if(fReader.line_num<0.6*fileLength):
trResult.append(i)
elif (fReader.line_num >= 0.6*fileLength and fReader.line_num<0.8*fileLength ):
teResult.append(i)
else:
vaResult.append(i)
file.close()
要獲得文本長度,那么直接開關一次,與后面徹底脫節,這樣就OK了
然后的話,csv的reader內置的line_num貌似會自動迭代。不過我沒去測試如果在一次循環體里面沒有調用item 是否會跳轉到下一行。畢竟你不用,循環個錘子哦。(隨機采樣表示不關我的事,)
至于之前把所有的txt文件寫到對應分類的csv里面去,我看看,放一部分代碼吧~ 全部的丟上來就涉及到一些不能說的秘密了。
def clearTHU():
nowWorkingDirectory = os.getcwd()
nowWorkingDirectory = 'G:\啟動盤外的文件\THUCNews'
directoryNames = ['彩票','科技','社會','時尚','時政','星座','游戲','娛樂']
allDataPath = []
#@TODO 后面到了linux的機器上可以開啟并行分詞
filtrate = re.compile(XXX)#非中文
for i in directoryNames:
allDataPath.append(os.path.join(nowWorkingDirectory,i))
for i in range(len(allDataPath)):
#現在是在分類的文件夾下,讀取每個文件夾下的所有文件丟到一個csv文件里面去
csvWFile = open(os.path.join(nowWorkingDirectory, directoryNames[i]+ '.csv'), 'w', encoding='utf8', newline='')
csvWFile.truncate()
writer = csv.writer(csvWFile)
index = [XXXX]
writer.writerow(index)
files = os.listdir(allDataPath[i])
result = []
print(allDataPath[i])
resultLength = 0
for file in files:
if(file.find('txt')==-1):
continue
item = []
with open(os.path.join(allDataPath[i],file), 'r', encoding='utf8') as f:
x = "".join([line.strip() for line in f.readlines()])
item.append(allDataPath[i][-2:])
item.append(x)
x = filtrate.sub(r'', x)
ss= ""
for s in XXX:
ss+= (XXX)
item.append(ss.strip())
if len(x)<10:
continue
item.append(str(XXX))
result.append(item)
if len(result) > 1000:
writer.writerows(result)
resultLength += len(result)
print("length of result: " + str(resultLength)+ "/"+str(len(files)))
result = []
# print("================"+os.path.join(allDataPath[i],file)+"=================\n" + " ".join(jieba.cut(x)))
if len(result) > 0:
writer.writerows(result)
csvWFile.close()
if __name__ == '__main__':
clearTHU()
正文之后
覺得自己的代碼真的寫的美極了~