A shtohet zhurmë e rastit në shtresat e fshehura konsiderohet rregullim? Cili është ndryshimi midis shtimit dhe shtimit të braktisjes dhe normalizimit të serisë?


përgjigje 1:

Po, shtimi i zhurmës së rastit në shtresat e fshehura është rregullimi ashtu si braktisja. Intuita kryesore këtu është se nëse përgjigjja nervore është me zë të lartë në çdo ndërrim, stërvitja do të duhet të rregullojë peshat në kategori të veçanta me një distancë më të madhe se zhurma. Prandaj, klasifikimi duhet të jetë më i qëndrueshëm për klasifikimin në kohën e mungesës së zhurmës. Kjo është shumë e ngjashme me mënyrën sesi funksionon Klasifikimi Max Margin, dhe të gjithë ne e dimë se sa të suksesshme kanë qenë teknikat Max Margin (p.sh. Machines Vector Vector). Sidoqoftë, duhet të siguroheni që zhurma të mos mposht sinjalin.

Braktisja konsiderohet një metodë e rregullimit sepse kryen një model mesatarisht. Kjo do të thotë, gjatë stërvitjes, modeli është në të vërtetë një shpërndarje e probabilitetit në një pikë në të gjithë një klasë të modeleve të rrjetit nervor në të cilin peshat janë të fiksuara, por një nga neuronet në model mund të mungojë. Mundësia e përgjithshme e secilit rrjet nervor përcaktohet nga gjasat individuale që një neuron i veçantë është i pranishëm ose i zhdukur. Ky është një rregullim sepse mesatarizohet mbi shtrembërimin e instancave individuale, i cili zbut funksionin e kostos.

Shtimi i zhurmës së rastit në shtresën e fshehur funksionon në të njëjtën mënyrë, por me një shpërndarje të ndryshme probabiliteti. Në vend që të keni pesha fikse, ju keni një topologji fikse, dhe shpërndarja e probabilitetit zgjedh rastësisht peshat sipas një shpërndarjeje Gaussian që është në qendër të peshave "të vërteta", d.m.th. peshat që i ruani në hard drive tuaj. Ky është gjithashtu një model mesatar dhe duhet të ketë një ndikim rregullues, me kufizimin që zhurma (varianca) nuk duhet të mposht sinjalin. Për shembull, nëse po përdorni BatchNorm për herë të parë, ju keni një profil daljeje standarde afërsisht normale (njësi të përqendruara në zero me një variant) dhe më pas mund të aplikoni zhurmë me një variant prej 0.1, për shembull. Ju mund të luani me variancën për të parë se çfarë funksionon.

EDIT: Meqenëse BatchNorm u përmend në pyetje, unë dëshiroja të theksoja se BatchNorm nuk përdoret me të vërtetë për rregullim. Kjo do të thotë, BatchNorm nuk e rregullon koston. Në vend të kësaj, BatchNorm është shtuar për të përmirësuar performancën e shumimit të shpinës. Në thelb, ajo parandalon që gradienti i përhapjes së prapambetjes të bëhet shumë i madh ose shumë i vogël duke shpëtuar dhe përqendruar përsëri. Si teknikë, ajo ka lidhje më të thella me metodat e optimizmit të rendit të dytë që përpiqen të modelojnë lakimin e sipërfaqes së kostos. Siç u përmend më lart, BatchNorm mund të përdoret gjithashtu për të siguruar që shkallëzimi relativ është i saktë kur shtoni zhurmë të rastësishme në aktivitetet nervore.


përgjigje 2:

Unë do ta konsideroja një mashtrim të optimizmit sesa një rregullim.

Efekti duhet të korrespondojë me efektin e stochasticity në SGD.

SGD dhe frymëzimi i tij metodat Monte Carlo shmangin ngecjen në minimat e këqija lokale duke ndërmarrë një hap të rastësishëm herë pas here në vend që të ndjekin rreptësisht drejtimin e prejardhjes më të madhe. ose për të bërë diçka ekuivalente në mishërimet e tyre të ndryshme, p.sh. B. Shtoni një komponent të rastit në secilin hap, në vend që të bëni një hap të rastit rregullisht.

Shtimi i zhurmës së dobët të rastit në pesha bën saktësisht të njëjtën gjë. [Shënim: Zbritja gradient shton diçka në peshat në çdo përsëritje!]


përgjigje 3:

EDIT:

Duke shtuar zhurmën e rastësishme të shpërndarë nga Gaussian në të dhënat hyrëse të secilës shtresë, modeli juaj mund të bëhet më i fortë ndaj ndryshimeve të vogla në të dhëna, kështu që rrjeti juaj mund të dallojë më mirë zhurmën nga sinjali. Siç tha Zeeshan Zia, kjo në thelb do të ishte një gradient i mirëfilltë stokastik. Unë ende nuk do ta konsideroja këtë rregullim. Moreshtë më shumë një teknikë që modeli juaj mund të përdorë për të mësuar modele për të ndarë zhurmën nga sinjali.

Braktisja çaktivizon rastësisht një pjesë të caktuar të nyjeve në një nivel të fshehur me secilën kalim. Kjo përmirëson rrjetin sepse duhet të mësojë të njohë të njëjtat modele në mënyra të ndryshme, gjë që çon në një model më të mirë.

Në normalizimin e grupeve, merrni inputet në një nivel dhe sigurohuni që të gjitha ato janë normalizuar midis 0 dhe 1. Kjo ndihmon që rrjeti të mësojë më mirë sepse gradienti qëndron më i mirë dhe i njëtrajtshëm. Në këtë mënyrë ju shmangni hedhjen nëpër minimale sepse pjerrësia juaj është shumë e madhe.