2013年12月9日 星期一

books - 淘宝技术这十年

20130819 訂購於三民網路書局, 20130830 拿到, 費用 224 nt/45 rmb。
我曾經很迷戀類似的書籍, 我買過 amazon, yahoo, apple, netscape, aol, microsoft, ibm, intel (呃 ... intel 的沒有, 但有到圖書館借過 Intel 創新之秘, 這本很精彩, 可以得知 intel 歷史, intel cpu, intel 技術開發的相關內容) ... 之類的書籍, 都是赫赫有名的 it 產業相關公司 (要不然怎麼會去買), 最近有出版 facebook, google 的書籍 (這兩間更有名了), 不過我現在已經不買這些書了, 他們的成功不見得能一直維持下去, 看看 netscape, aol, yahoo, 目前的困境 (netscape 則已經消失)。浪潮之巔則是類似的書籍, 剖析不少大公司, 其內容很精彩, 目前有第二版(還是沒買)。這些是我認為會過時的書籍。不過我的確好奇, 想看看這些公司的成長故事, 就像大多的小說一樣, 我想看故事, 但我不想買 (所以這時候就得好好運用圖書館資源)。

這本會讓我掏錢的原因除了公司故事外 (我本身對淘寶沒什麼好奇, 並不會想特別了解這家公司), 主要還有提到的技術, 我對大型網站開發沒什麼概念, 裡頭介紹淘寶如何改用/開發新的技術來應付日益龐大的流量, 讓我理解超大型網站是如何解決這樣的問題, 也對於怎麼迅速開發一個網站是怎麼辦到的(答案很簡單, 先去買個可用的來改), 我是技術人, 重視技術含量也是很合理的。

一翻開書就有著奇怪的感覺, 說不上的怪, 排版看來不算難看, 閱讀幾章之後, 終於察覺到了問題, 這本書的字比較大, 特地找其他的簡體中文書籍來對照, 真的大了一點, 行距也大了一些, 字大一點在排版來說不一定就舒適、好看, 侯捷的書是 9 號字, 你覺得難看嗎? 排版的功夫在視覺上佔了較大的比重, 我懷疑是拿來灌水用的, 這本書並不厚。圖片則是另外的問題, 由於沒有引用圖形編號, 使得文字裡頭只能用上下圖, 左圖之類的詞句, 而不是圖一、圖二這種用法, 我覺得納悶, 這排版還真的有點怪怪的, 簡直是 word 初學者的程度。排版不難看, 但不是很專業, 這是要賣的書籍, 不是學校的報告, 看來是蒐集 blog 文章剪貼就出書了, 希望是我搞錯了。45 rmb 以文字量/技術含量/厚度來看, 實在貴了不只一點。

20030407 ~ 20030510 完成了最早版本的淘寶, 為了能這麼快速完成, 他們的策略是購買一個可用的版本 (phpauction), 在慢慢修改所需要的功能。

第 0 章簡單的介紹淘寶網所使用的技術, 這些技術均是用來克服大量的網頁需求, 讀過一遍之後我嚇了一跳, 我知道大型網站不簡單, 但我沒想到是這麼的「不簡單」。

對於輸入搜尋的中文字 (注意: 強調的是中文詞據) 淘寶做了分詞的解析動作, 這能提高搜尋的準確性。而一些數據分析系統, 則能細到分析你是誰, 喜歡什麼, 真是令人擔心害怕。對於瀏覽器端的資源 (javascript, css, 圖片 ...) 同時存取的能力, 淘寶也下了一番功夫, 要能對抗光棍節的龐大需求, 果然不是簡單的事情。而貼心的網頁快照則提供了賣家無法反悔的證據, 這是用來提供買家當時買的拍賣資訊, 因為賣家可以修改拍賣資訊, 這又讓難度提升了好幾個等級, 台灣的拍賣服務實在差太多了。

沒有書的朋友可以搜尋這篇文章一探究竟: 刚才在淘宝上买了一件东西

800Gbps 這是 20111111 那年的最高流量, 果真駭人。

為了穩定性, 淘寶有過需要重新啟動程式的經歷, 每天早上要重啟, 晚上也要重啟, 真把這些工程師折騰到剩下半條命。

「任何牛 B 的人物,都必須有一段苦 B 的經歷。」聽起來像是玩笑話, 你能體會裡頭的辛苦嗎? 在自己有了一段痛苦的學習體驗後, 我能理解這句話背後的努力。為了完成支付寶, 裡頭有位工程師辦了所有銀行的卡片, 一一的測試支付寶的付款功能, 為什麼要這麼辛苦完成這功能, 就是為了防止詐騙的賣家, 買家轉了帳沒拿到貨, 淘寶知道這功能的重要性, 參考了 paypal, qq 幣, 不過我不知道為什麼書上說 paypal 不能解決這問題, paypal 不就是那來解決這問題的嗎? 台灣的拍賣則對這問題視而不見, 「我們只提供平台, 買賣糾紛我們不介入」這類混帳話你是不是很生氣, 我因為這原因不是很喜歡用台灣的拍賣, 等淘寶再更介入台灣後, 你們等著完蛋吧!

第 3 章提到為了應付網站流量, 將 php 改成 java (想到就覺得恐怖), 請來 sum 工程師幫忙, 將 php 轉換到他們最熟悉 java, sum 工程師還幫 ebay 幹了類似的事情, 不過是把 c++ 換成了 java, c++ 討人厭的事情多了一件。

facebook 則是用了另外的技術來改善流量變大的問題, 將 php 程式碼轉成 c++, 不過目前改變了一點作法。ref: http://zh.wikipedia.org/wiki/HipHop_for_PHP

第 4 章在解釋淘寶自己開發的一些技術, 有 tabao file system, 除了拿來自己用之外, 還 open source, source code: http://code.taobao.org/p/tfs/src/ 真是不簡單, tair 則是另外一套 open source 的系統。他們知道開放的力量, 在目前的趨勢中, 開放算是個主流。

第五章是比較難讀的一章, 裡頭的技術含量較高, 讀來沒那麼輕鬆, 這可是淘寶幾年的改進, 的確不簡單。將原本的服務拆成好幾個小模組, 導入中間層, 開了一些自己的架構, HSF, Notify, TDDL, session framework, 提供 API 讓開發者使用, 讀過一遍之後, 讓我這個不了解大型網站開發的麻瓜, 有了大體上的認識, 要考慮/處理的細節可不少, 難怪我們常看到台鐵, iphone 訂購, 這麼容易就垮了, 這可需要不少的努力才能成事。大原則就是切割, 將所有的功能分散出來, 用講的很簡單, 怎麼把這些分散的模組好好的相互合作, 速度還不能慢, 這可就是大問題了。淘寶也是被逼的開發這些技術, 因為市場上所能買到的技術/硬體已經不能符合他們的需求了。

第六章就是作者自己的經歷, 當淘寶的故事看看, 很輕鬆, 有些東西在之前的章節有提過, 看來好像真的把 blog 文章集合就出書了, 因為從排版看來, 好像是直接把網頁的格式轉成書本頁面。

對於作者提到有人來挖他我不太能理解, 同一個公司或集團能算挖角嗎? 他被從淘寶旅行「挖到」測試團隊, 我覺得這不能算挖角吧!

作者搞了個淘寶大學, 這當然不是真的大學, 而是淘寶的培訓單位, 用來培訓進入淘寶的新人, 這是台灣企業比較少有的單位, 當然中國本身的企業也少有。p 158 提到的數據, 美國人均培訓時間 19 小時, 淘寶是 14 小時, 中國企業平均不到 5 小時, 不知道台灣的數據是多少?為什麼要搞這個, 因為學校教的東西不可能有淘寶用的技術阿! 這些技術都是淘寶自己開發的。

第七章是一些淘寶上的技術人員訪談, 和第六章一樣, 這兩章我比較沒什麼興趣, 這些人所研究的領域是我比較陌生的東西, 我也不熟悉這些大牛, 讀來沒有什麼共鳴, 提到的技術我都很陌生, 但我相信網站開發人員應該會有所心得。

我記得露天拍賣剛開始也是和淘寶有類似的問題, 買/賣家變多了之後, 網站無法負荷了, 也是花了不少時間才穩定下來, 不知道他們是不是也是和淘寶有著相同的奮鬥經驗。

這本書竟然有繁體中文版本:
淘寶,技術為王:這群工程師如何打敗eBay,用10年建立中國網購江山
http://www.books.com.tw/products/0010617962
真是煽情的書名。

ref:
有人整理了網路相關文章 (看這個應該就夠了): http://blog.longwin.com.tw/2013/11/taobao-origin-story-history-2013/
作者子柳, 我不知道是不是書上所有內容都有在這裡:
http://blog.sina.com.cn/s/blog_633219970100x9cc.html

放翁: http://blog.csdn.net/cenwenchu79
完美商店 (ebay 的故事): http://book.douban.com/subject/1128908/ 28 rmb, 你就知道為什麼我說這本貴了不只一點。

目录

引言
第一章:网站开张
以理想为经营准则
第二章:飞速成长
从豆袋公仔到签名足球
第三章:努力转型
注入新血,成为真正的公司
第四章:龙头宝座岌岌可危
auctionuniverse和onsaleexchange激烈竞争
第五章:公开上市
一切准备就绪,朝1998年9月24日挺进
第六章:ebay效应
泡沫包装纸、泡菜瓶、杂志都可以大卖
第七章:面对危机
从混乱中摸索出铁序
看來和一般介紹公司經歷成長的書籍一樣, 沒有技術含量的部份。

沒有留言:

張貼留言

使用 google 的 reCAPTCHA 驗證碼, 總算可以輕鬆留言了。

我實在受不了 spam 了, 又不想讓大家的眼睛花掉, 只好放棄匿名留言。這是沒辦法中的辦法了。留言的朋友需要有 google 帳號。