模擬關鍵字查詢,購置實驗設備的問題 - Linux

Table of Contents

最近要作「網頁」與「關鍵字」的相關性分析,

問題如下,

機器人爬回來的網頁資料,會存放在資料庫裡。

不會爬回全世界的網頁,但也會有不少的資料,

Q1.請問該準備多少容量的硬碟,才會比較夠呢?

Q2.一部電腦可以接多少台硬碟呢?

若硬碟裝滿了,是不是可以增加硬碟,

讓一台電腦,去接很多很多塊硬碟?

或是每增加一些硬碟,就一定要增加一台電腦?

補充如下,這是內部人員要使用的實驗環境,所以電腦數約2~3台,

平時沒用都會關機,有用才會打開,目前要作的實驗是,

輸入某個「關鍵字」,例如「ptt」,計算相關的網頁數有多少筆,

查詢時間會控制在10秒內

Q3. 請問硬碟與硬碟間的資料可以互通嗎?

例如查詢硬碟A的資料查不到(或查到部份結果),再到硬碟B去查,

查到了,再顯示出來

--

All Comments

Zora avatarZora2013-11-11
q3:插滿硬碟作raid0應該就好了
Selena avatarSelena2013-11-12
q1:你只抓文字還是全抓?抓回來會把html tags剝掉只留文字?
Audriana avatarAudriana2013-11-16
q2:這跟你的預算比較有關,有錢就好辦事
Poppy avatarPoppy2013-11-17
用 raid0 的好處是? 只抓文字跟標點符號,html tags
Zora avatarZora2013-11-20
全拿掉,請問這樣的需求,約多少預算,需多大的硬碟
Irma avatarIrma2013-11-21
多少台電腦(電腦指主板+cpu)
Vanessa avatarVanessa2013-11-24
純粹看你的「不少資料」有多少XD
Charlie avatarCharlie2013-11-28
少的話可能一兩顆1TB就夠,多的話可能一兩貨櫃的1TB都不夠
Gilbert avatarGilbert2013-12-03
只抓取繁體中文網站的話,大概需多少TB呢?
Caroline avatarCaroline2013-12-04
網路上所有繁體中文網站!? 這也是用貨櫃而非TB當單位吧XD
Dinah avatarDinah2013-12-05
就連google也沒爬到全部,先根據有多少錢決定資料量吧
Kama avatarKama2013-12-08
至於互通什麼的跟硬體或linux似乎沒啥關係...
Ivy avatarIvy2013-12-09
抱歉,我問錯了,應該這樣問才對
Skylar Davis avatarSkylar Davis2013-12-11
1TB 可以裝幾頁(假設1網站=1頁,1頁有1000字)
Irma avatarIrma2013-12-12
這你可以自己算吧,和你儲存的方式有關
Rachel avatarRachel2013-12-15
假設存10TB, 那1台電腦可以接10顆硬碟嗎?
George avatarGeorge2013-12-20
又該如何組合這10塊硬碟的資料呢?
Sierra Rose avatarSierra Rose2013-12-23
有錢你想接幾顆HDD都辦得到
Joe avatarJoe2013-12-23
如何組合也純粹看程式怎麼寫 @_@ 讀進不同硬碟上的資料跟
讀進同顆硬碟不同檔案,從作業系統的角度來看是一樣的吧@@
Dorothy avatarDorothy2013-12-27
尺度大到需要一群電腦一起工作時也許可以考慮hadoop之類的
Eden avatarEden2014-01-01
我實驗室用R720XD 能裝26顆。不錯用
Zenobia avatarZenobia2014-01-01
感激涕零 我就是在找像這樣的設備,不過還是沒有頭緒
Harry avatarHarry2014-01-06
該怎麼建置呢,大大們的回答,我一頭霧水啊...
Callum avatarCallum2014-01-08
就raid阿............
Erin avatarErin2014-01-12
分散式檔案系統 HDFS 或是其他的
Lauren avatarLauren2014-01-16
這樣問吧,2台電腦+10塊硬碟+20條排線
Andy avatarAndy2014-01-19
如何把它們串在一起工作?市面上有多硬碟串接線這種東西嗎
Una avatarUna2014-01-24
有點好奇為什麼沒有人建議原 po 直接用 NAS :P
Valerie avatarValerie2014-01-26
硬碟陣列櫃
Olga avatarOlga2014-01-31
嗯,磁碟陣列櫃就是我要的東東