<pre id="p1pz5"><delect id="p1pz5"></delect></pre>
<output id="p1pz5"><delect id="p1pz5"><listing id="p1pz5"></listing></delect></output>

<p id="p1pz5"></p>

<pre id="p1pz5"></pre>

<p id="p1pz5"></p>
<pre id="p1pz5"><output id="p1pz5"></output></pre>
<pre id="p1pz5"><output id="p1pz5"><delect id="p1pz5"></delect></output></pre><pre id="p1pz5"></pre>

<p id="p1pz5"><output id="p1pz5"></output></p>

<p id="p1pz5"><output id="p1pz5"><menuitem id="p1pz5"></menuitem></output></p>

<output id="p1pz5"></output>
<pre id="p1pz5"><output id="p1pz5"></output></pre>

<p id="p1pz5"><delect id="p1pz5"><menuitem id="p1pz5"></menuitem></delect></p>

<p id="p1pz5"></p>
<p id="p1pz5"><output id="p1pz5"></output></p>
<p id="p1pz5"><output id="p1pz5"></output></p>

<p id="p1pz5"><output id="p1pz5"></output></p>
<p id="p1pz5"></p>

<output id="p1pz5"><delect id="p1pz5"></delect></output>

<p id="p1pz5"></p>

<p id="p1pz5"></p>

<p id="p1pz5"></p>
<p id="p1pz5"><delect id="p1pz5"><address id="p1pz5"></address></delect></p>

<pre id="p1pz5"></pre>

<pre id="p1pz5"><output id="p1pz5"><delect id="p1pz5"></delect></output></pre>

畢業設計網
JSP,JAVA | python | android,安卓 | PHP | 微信小程序 | asp.net|C# | VB | VC++ | 課程設計 | asp類 |

基于python的爬蟲研究和功能實現

作為搜索引擎技術核心元素之一,自1993年初 Matthew Gray’s Wandered 在麻省理工學院開發出有史記載的第一個網絡爬蟲以來,爬蟲技術歷經20多年的發展,技術已日趨多樣。為滿足不同用戶多種多樣的需求,創建開發了類型眾多的爬蟲系統。隨著社會與互聯網的發展,互聯網上的某一方向的相關數據體量已經達到了天文數字的地步。過去最樸素的人工收集數據的策略面對當今大體量的數據環境,其效率相當低下,所以誕生了爬蟲相關技術以應對當今數據收集的效率問題。研究爬蟲技術有助于在將來的工作中產生幫助,是大數據技術的基礎。

爬蟲研究現狀:
網絡爬蟲即 Spider,跟隨網絡出現而應運而生。1993 年,第一個網絡爬蟲即 Matthew Gray 的 Wanderer 初露頭角。國際萬維網的前兩屆會議上開始有了介紹網絡 爬蟲的相關文獻[9-11],但那時沒有現在面臨的互聯網內海量數據內容,整個技術涉及面 相對狹窄。在一個商業競爭激烈的社會,成熟的網絡爬蟲技術并沒被公開,Google Crawler、Internet Crawler 以及 Mercator 例外。
(二)課題研究的主要內容
1.對網絡爬蟲相關技術知識的學習。
2.對網絡爬蟲相關技術的文獻的研究。
3.對行業內網絡爬蟲的使用范圍相關情況進行了解。
4.了解網絡爬蟲與隱私的相關法律條款。
5.利用現有技術實現一個免登陸、多目標爬取數據,同時針對爬取的數據進行了初步的篩選過濾,可去掉多余信息的網絡爬蟲軟件。

(三)擬解決的主要問題和最終目標
1.學習Python編程語言并熟練運用
2.學習網絡爬蟲基礎知識
3.編寫一個有基礎網絡爬蟲功能的通用型網絡爬蟲
4.利用現有技術實現一個免登陸、多目標爬取數據,同時針對爬取的數據進行了初步的篩選過濾,可去掉多余信息的網絡爬蟲軟件。
    5.完成相關論文的撰寫。

(四)擬采用的研究方法或技術方案
研究方法:
1.調查法:了解網絡爬蟲的軟件的業務范圍與業務邏輯并對其進行研究。
2.觀察法:觀察軟件運行的結果,檢查軟件有誤邏輯上的缺陷與錯誤。
3.實驗法:對比自己開發的爬蟲程序與網絡上開源的爬蟲程序之間的速度,效率與空間占用的大小。確定改進方向。
4.文獻研究法:通過查閱文獻了解各種開發語言的優勢與劣勢,確定適合自己的程序開發環境。

技術方案:
1. 學習,復習爬蟲相關技術知識,查閱資料,規劃方向。
2. 對系統進行整體設計,確定各個子模塊的功能需求,確定軟件開發環境。
3. 完成開發環境搭建,規劃軟件開發模塊和順序,開發工作啟動。
4. 完成軟件各個模塊的開發,并進行測試。

(五)課題預期結論或過程中的特色、創新點
 創新點:爬蟲具有對爬取數據的特征分析的功能,并可以爬取指定特征的數據。

以上是一部分介紹,如需要完整的資料或者如不符合您的要求,請聯系技術人員qq:1587620172咨詢 微信:phpvisa66

上一篇:基于MUI的手機商店app-hbuilderx
下一篇:基于Web的旅行社管理系統


版權所有 畢業設計網聯系qq:1587620172 © 2007-2022

蝴蝶中文综合娱乐网

<pre id="p1pz5"><delect id="p1pz5"></delect></pre>
<output id="p1pz5"><delect id="p1pz5"><listing id="p1pz5"></listing></delect></output>

<p id="p1pz5"></p>

<pre id="p1pz5"></pre>

<p id="p1pz5"></p>
<pre id="p1pz5"><output id="p1pz5"></output></pre>
<pre id="p1pz5"><output id="p1pz5"><delect id="p1pz5"></delect></output></pre><pre id="p1pz5"></pre>

<p id="p1pz5"><output id="p1pz5"></output></p>

<p id="p1pz5"><output id="p1pz5"><menuitem id="p1pz5"></menuitem></output></p>

<output id="p1pz5"></output>
<pre id="p1pz5"><output id="p1pz5"></output></pre>

<p id="p1pz5"><delect id="p1pz5"><menuitem id="p1pz5"></menuitem></delect></p>

<p id="p1pz5"></p>
<p id="p1pz5"><output id="p1pz5"></output></p>
<p id="p1pz5"><output id="p1pz5"></output></p>

<p id="p1pz5"><output id="p1pz5"></output></p>
<p id="p1pz5"></p>

<output id="p1pz5"><delect id="p1pz5"></delect></output>

<p id="p1pz5"></p>

<p id="p1pz5"></p>

<p id="p1pz5"></p>
<p id="p1pz5"><delect id="p1pz5"><address id="p1pz5"></address></delect></p>

<pre id="p1pz5"></pre>

<pre id="p1pz5"><output id="p1pz5"><delect id="p1pz5"></delect></output></pre>