To hear and to be heard.
最近輸入中 | 那個當下我微微了解了AI一點點
【文章】What I’ve Learned About AI in the Past Two Months. by詹雨安
看這篇文章的心情比較是試試看,在不去搞清楚裡頭每一個英文縮寫或名詞是什麼意思,用個架構了解一下AI是什麼,希望至少自己當下看的時候有理解一些些。
但說實話收穫比想像的多,雖然能力還不足以用自己的話重新表述一次,但下面這段讓我有稍微知道LLM「哦~~~原來是這樣哪」的小明白。
為什麼單純去 scale Transformer Decoder 做 next-token prediction 就能打造出如此強大的 LLM 呢?我覺得 OpenAI 前首席科學家 Ilya Sutskever 之前在 Berkeley 給的一場演講對我有很大的啟發。這裡比較關鍵的想法是所謂的預測、壓縮、學習、經驗歸納、模式辨識,指的其實都是同一件事情,只是用不同方式來描述。舉例來說,你可以從自然界的數據中「學習」到許多的「模式」、進而將這些數據「壓縮」成物理定律。有了物理定律後,你就可以通過計算來「預測」許多事情。一個模型擅長預測,代表它擅長找到一個非常好的壓縮器,也代表它非常善於學習和歸納經驗,將經驗壓縮成知識、建立對世界的理解。
所以我們可以把 LLM 比喻為一個巨大的壓縮器,而當你在 train model 時,其實就是在用隨機梯度下降法(SGD)去搜尋那個最理想的壓縮器的 program。有趣的是,最理想的壓縮器在數學上叫 Kolmogorov compressor,它是 Turing 不可計算的,因此在實務上我們只能通過不斷 scale model size 和 training data 來取得更好的表現,透過 SGD 去嘗試「接近」Kolmogorov compressor,但無法真正達到它。這是對於 scaling law 為什麼有效的其中一種很有意思的解釋,只要我們有無止盡的 data,model 就能一直變得更好,但永遠無法達到完美。當然,在現實世界中我們只有一個 internet,所以 pre-training 如果把整個 internet data 都用完後確實還是可能撞到牆。
【報告】文策院2024年第三季出版季報
針對第三季的出版概況做的報告,看到幾個點
- 我翻不到三聯書店到底出了什麼影視偶像的書,不知為何。

- 看到漫畫新書時出版社居然沒有朋友家,覺得超怪,問了一下才笑說因為他們有分拆到集團下的其他出版社,所以顯現不出來。這樣想以出版社為單位看這個報告結果就要記得再自行腦補一些情境。

- 五個通路的月暢銷榜(季結算)
- 因為每個榜單的邏輯都略有不同,所以真的只能當參考,之前我好像都沒注意過這個區塊,但這次看到博客來的進榜書目和其他人比真的少很多,不知能否化約解釋為在這個平台上的購買集中度更高?
- 很久前在出版社工作時,「進榜」這件事情是能夠帶動銷售的,所以當時「買榜」也算是有耳聞。但看書久了我對榜單的感覺比較是「了解社會脈動」(然後發現怎麼這麼久了都不動,都還是《原子習慣》XD),現在進榜最明確的好處是可以讓出版社或作者加上一行宣傳詞語我想。
- 但我對那種霸榜很久的書大多是認同的,能夠那麼久(一年兩年三年)不斷的留在榜上,除了口碑之外真的沒太多其他理由。
- 每個通路的屬性還有客層都不盡相同,例如MOMO我覺得有些出版社供貨只是交個朋友的概念,常常都關購物車,這樣自然也不會進榜了。
- 簡列一下大家季入榜的不重複書目數字
- 博客來:337種
- 三民:951種
- 誠品:785種
- 金石堂:820種
- MOMO:533種
【Podcast】EP426 行憲紀念日快樂 ft. 陸伯言老ㄙ
我喜歡台通的訪談,真的都有不同的切角和精密的結構(也有可能是花了大量力氣剪輯),推推這集的原因是很適合給完全不明白的人入門,而且又不會睡著,還幫我們問了大多數人都講不清楚的到底「大陸」和「中國」差異在哪裡的問題(感謝女兒),珞亦應該也順了很久,真好有這樣的白話文。
【影集】The Day of the Jackal

我對Eddie Redmayne 一直無感,覺得他有點,假假的……但到這片突然發現了他的迷人之處,拜託你多回英國拍影集好嗎。原版我幾年前有看過,只記得男主帥翻,這次看影集覺得細細的鋪陳真的很好,而且這選音樂也太有品味了吧,直接附上Spotify整理好的歌單給各位。