蘋果將偵測兒童色情影像 用戶上傳iCloud - 手機討論

Table of Contents

: - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複
: 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值
: 為了要避免他們儲存太多重複的檔案
: 有兩個用戶上傳一樣hash的檔案可以只存一份就好
: (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間)

用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同

我覺得蘋果不會做這種智障系統,否則這系統根本沒用

所以去翻了一下相關文件

https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf

看起來是用蘋果自己開發的新演算法 NeuralHash

看名字就知道一定跟神經網路有關

大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵

最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值

LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化

以避免相似的資料產生一樣的 hash

LSH 則否,越相似的資料產生相同 hash 的機率越高

以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash

是很厲害的技術

--

至於在哪裡計算與比對、以及如何找出異常,都有超級複雜的處理方式

算是可以看出蘋果對用戶隱私的用心啦

至於有沒有用、使用者買不買單就是另外一回事囉

--

All Comments

Elma avatarElma2021-08-08
https://i.imgur.com/Iyu9H9B.png
Ina avatarIna2021-08-09
誤判的後續處理是否會侵害隱私呢?或是擾民?
Ida avatarIda2021-08-09
樓上 他有一個 threshold number
Ula avatarUla2021-08-10
基本上你要iCloud裡面有一堆這種類型的照片超過那個 threshold number 他才會轉人工檢測一張兩張 有可能是誤判 可是你有100張都被確診那就合理懷疑你是有問題的100只是我隨便設一個 threshold number
Bethany avatarBethany2021-08-10
白皮書裡面有說 他們不會去學習不在那個資料庫內的特徵很大程度要去降誤差帶來的問題
Gilbert avatarGilbert2021-08-11
你的兒童色情圖片不在 CSAM 資料庫中在蘋果這套偵測機制下 是不會被抓出來的
Lydia avatarLydia2021-08-11
所以在訓練這個模型的同時他們也有大量的兒童色情資料囉
Adele avatarAdele2021-08-12
如果只是單純訓練模型的話,不用用有問題的圖片下去
Gilbert avatarGilbert2021-08-12
訓練。那個只是要取圖片特徵,所以大概是比較廣泛的資料下去訓練的
Adele avatarAdele2021-08-13
白皮書裡面有寫 誤判率大概是 1 in 1 trillion
Hedy avatarHedy2021-08-14
不是用有色情去訓練,那我今天拍兒女的生活照片,是不是也會被抓兒童色情拿去人工審核呢,隱私呢?
Elizabeth avatarElizabeth2021-08-14
你是要談模型訓練還是比對?模型已經訓練好了當然不會拿你的照片下去訓練,至於比對是一定會做的,不爽不要用
Sierra Rose avatarSierra Rose2021-08-15
他有說不會訓練 CSAM 提供以外的CSAM 資料庫基本上就是一個兒童色情犯罪的檔案庫你女兒的裸照並不會無緣無故被拿去訓練
Emily avatarEmily2021-08-15
除非你兒女的裸照曾經被用於犯罪用途才有機會被列進去 CSAM 資料庫
Agatha avatarAgatha2021-08-16
更正是 NCMEC 資料庫然後 NCMEC 提供的貌似也只有 hashes 值而已所以很有可能 Apple 也碰不到原始圖片
Jake avatarJake2021-08-16
using a database of known CSAM image hashes provided by NCMEC and other child-safety organizatio
Poppy avatarPoppy2021-08-17
當然可以不爽不要用啊,我就是對他們的訓練跟審核方式提出質疑啊,訓練方式樓上解答了,這部分就沒有疑問了,那審核呢,你蘋果說懷疑就懷疑,直接就可以翻別人的資料再轉給司法部門甚至是第三人?當然你合約可以這樣定,但是否過度擴權或是與法律保障的權利抵觸。不過確實在這篇討論這件事跟你本文離題了,本來應該只聚焦在訓練模型的方式上,拍謝拍謝
Steve avatarSteve2021-08-17
把幾個熱門名詞結合在一起就能當新的feature出來賣
Frederic avatarFrederic2021-08-18
這個應該最合理 可是這個hash是在客戶端計算?
Frederic avatarFrederic2021-08-18
他們應該是用FBI提供數據來訓練吧
Noah avatarNoah2021-08-19
美國就爛啊 長臂管轄 侵害個人自由但一般人又能拿他怎麼辦 真的只能不爽不要用
Noah avatarNoah2021-08-19
不過這樣看起來不也跟Google用AI去辨認沒兩樣嗎
Rebecca avatarRebecca2021-08-20
一樣都是讓模型去讀取照片 哪裡比Google好了
Brianna avatarBrianna2021-08-21
Barb Cronin avatarBarb Cronin2021-08-21
這篇正解
Quanna avatarQuanna2021-08-22
如果是這篇寫的這樣,似乎對人權和隱私的侵犯就有降到最低限度?並且不至於將非兒童色情誤報為兒童色情,必須高度符合特徵,才會被判定並得到通報?例如色情內容但不確定是否未成年,或未成年但不確定是否色情,這個系統頂多通報交由人工複查?
Liam avatarLiam2021-08-22
但一切還是要當事企業自己說明清楚,否則只能期望歐盟出手,依GDPR展開調查。
Isabella avatarIsabella2021-08-23
樓上 他不會去「判定」色情內容跟是否成年
Aaliyah avatarAaliyah2021-08-23
他一切都以NCMEC提供的圖片特徵碼為主
Charlie avatarCharlie2021-08-24
你就算偷拍一千張蘿莉(比喻),只要沒有散出去被NCMEC資料庫(通常是被當犯罪資料送進去),在這
Ophelia avatarOphelia2021-08-24
機制下是不會被糾出來的
Caroline avatarCaroline2021-08-25
也就是說這些照片就是已經通報失蹤或受虐的兒童啊
Jessica avatarJessica2021-08-25
那icloud滿了還會傳嗎?