[논문 리뷰] Feature Extraction using Spiking Convolutional Neural Networks

2026. 3. 8. 10:00·논문리뷰

Feature Extraction using Spiking Convolutional Neural Networks
Ruthvik Vaila, John N Chiasson, Vishal Saxena
ICONS '19 (International Conference on Neuromorphic Systems)
DOI: 10.1145/3354265.3354279

 

Feature Extraction using Spiking Convolutional Neural Networks | Proceedings of the International Conference on Neuromorphic Sys

Brain-inspired learning models attempt to mimic the computations performed in the neurons and synapses constituting the human brain to achieve its efficiency in cognitive tasks. In this work, we propose Spike Timing Dependent Plasticity-based ...

dl.acm.org

 

요약

STDP(Spike Timing Dependent Plasticity)로 비지도 학습된 스파이킹 CNN의 특징 추출 능력을 MNIST/N-MNIST에서 검증하고, catastrophic forgetting에 대한 내성과 과훈련 문제를 분석한 논문

 

문제 정의

기존 딥러닝(DCNN)은 높은 정확도를 달성하지만, 학습과 추론 모두에서 막대한 메모리와 에너지를 소모한다.

 

Spiking Neural Networks(SNN)은 생물학적 신경망을 모사한 대안으로, Intel의 Loihi 같은 뉴로모픽 칩 위에서 비동기적으로 동작하며 저전력으로 연산할 수 있다는 장점이 있다.

 

이 논문은 기존 CNN의 backpropagation 대신 STDP라는 생물학적 학습 규칙으로 컨볼루션 레이어를 비지도 학습시킨 뒤, 추출된 특징으로 분류 성능을 달성할 수 있는지를 탐구한다.

 

핵심 아이디어 — STDP 기반 비지도 특징 추출

네트워크 구조

L1(입력 스파이크 이미지, ON/OFF 센터 2채널) → L2(30개 맵, 5×5 커널 컨볼루션) → L3(2×2 max pooling) → L4(flatten + 분류기)의 구조다. 핵심은 L1→L2의 컨볼루션 커널이 STDP로 비지도 학습된다는 점이다. 분류는 마지막 레이어에서만 backprop 또는 SVM으로 수행한다.

 

STDP 학습 규칙

입력 뉴런(pre-synaptic)이 출력 뉴런(post-synaptic)보다 먼저 스파이크하면 시냅스 가중치를 증가시키고, 반대면 감소시킨다. 수식으로는 $Δw = ±a·w(1−w)$ 형태로, 가중치가 0~1 사이에 자연스럽게 바운딩된다. 시간 차이의 크기에 의존하지 않는 단순화된 STDP 모델을 사용했다.

 

Lateral Inhibition과 STDP Competition

같은 위치 (u,v)에서 여러 맵의 뉴런이 동시에 threshold를 넘으면, 가장 높은 membrane potential을 가진 뉴런만 스파이크하고 나머지는 억제된다(lateral inhibition). 추가로 STDP competition에서는 11×11 영역 내에서 모든 맵을 걸쳐 최대 하나의 뉴런만 스파이크할 수 있다. 이를 통해 각 맵이 서로 다른 특징을 학습하도록 유도하고, 스파이크의 희소성(sparsity)을 유지한다.

 

R-STDP (Reward-modulated STDP)

SVM이나 backprop 분류기 대신, 보상/벌칙 신호로 마지막 레이어를 학습하는 방식이다. 정답이면 STDP 방향으로, 오답이면 반대 방향으로 가중치를 업데이트한다. STDP가 구분하기 어려운 유사 특징(예: "1"과 "7")을 더 잘 분리할 수 있다고 알려져 있으나, 과적합 경향이 있고 가중치 초기화에 민감하다.

 

실험 결과

MNIST 분류: 단일 컨볼루션/풀링 레이어 + SVM(RBF)으로 98.8% test accuracy를 달성했다. 2-layer backprop 분류기로는 98.4%였다. STDP로 비지도 학습된 특징이 단순한 선형/SVM 분류기만으로도 높은 정확도를 만든다는 점에서, STDP가 입력을 고차원에서 쉽게 분리 가능한 표현으로 변환한다는 주장을 뒷받침한다.

 

N-MNIST: MNIST로 학습한 커널을 그대로 사용해 N-MNIST(이벤트 카메라 데이터)에 적용한 결과, SVM으로 98.32%를 달성했다. 도메인 간 전이 가능성을 보여준다.

 

Catastrophic Forgetting: 가장 흥미로운 실험이다. {0,1,2,3,4}를 학습한 뒤 {5,6,7,8,9}를 학습시켰을 때, 기존 CNN은 첫 번째 세트의 정확도가 10%(랜덤 수준)으로 폭락한 반면, 스파이킹 CNN은 77%를 유지했다. 10%의 이전 데이터를 재학습에 포함시키면 95.1%까지 회복되었다. 논문의 표현대로 "잊기는 하지만, 재앙적으로 잊지는 않는다."

 

과훈련 문제: 2층 컨볼루션 네트워크에서 학습을 오래 진행하면 커널 가중치가 0 또는 1로 포화되면서 학습된 특징이 단순해지는 현상을 관찰했다. 가중치 차이의 시간적 변화를 모니터링하면 과훈련 시작점(약 80~100 샘플 시점)을 탐지할 수 있음을 보여준다.

 

R-STDP 한계: R-STDP 분류기는 90.1%에 그쳐, backprop 분류기(98.4%)나 SVM(98.8%)에 크게 뒤처졌다. Backprop으로 학습된 좋은 가중치로 초기화해도 결국 90%로 수렴하여, R-STDP 자체의 최적화 능력 한계를 시사한다.

 

강점 및 한계

강점

STDP 비지도 학습으로 추출한 특징만으로 98.8% 정확도를 달성한 점

Catastrophic forgetting 실험이 CNN과의 직접 비교로 설계되어 SNN의 구조적 이점이 명확히 드러난다.

과훈련 탐지를 위한 가중치 변화 모니터링도 실용적인 기여다.

 

한계

실험이 MNIST/N-MNIST에 한정되어 있어, 더 복잡한 데이터셋(CIFAR-10, ImageNet 등)에서의 확장성은 검증되지 않았다.

R-STDP의 성능이 기대에 못 미쳤고, 2층 컨볼루션으로 확장하면 오히려 정확도가 떨어지는 문제도 해결되지 않았다.

STDP의 학습률 스케줄링, threshold 설정 등 하이퍼파라미터 민감도에 대한 체계적 분석도 부족하다.

 

 

Backpropagation 없이 생물학적 학습 규칙만으로 CNN급 특징 추출이 가능하다는 것을 보여준 논문이다. 특히 catastrophic forgetting에 대한 자연적 내성은 continual learning 관점에서 주목할 만하다. 뉴로모픽 칩(Loihi 등) 위에서의 초저전력 추론을 목표로 하는 연구라면, STDP 기반 비지도 특징 추출이 backprop의 대안이 될 수 있음을 시사한다.

'논문리뷰' 카테고리의 다른 글

[논문 리뷰] Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes  (0) 2026.03.08
[논문 리뷰] Distilling the Knowledge in a Neural Network  (0) 2026.03.07
[논문 리뷰] TaskSense: A Translation-like Approach for Tasking Heterogeneous Sensor Systems with LLMs  (0) 2026.03.07
[논문 리뷰] INFINI-GRAM MINI: Exact n-gram Search at the Internet Scale with FM-Index  (0) 2025.11.30
[논문 리뷰] ORB-SLAM: A Versatile and Accurate Monocular SLAM System  (1) 2025.06.23
'논문리뷰' 카테고리의 다른 글
  • [논문 리뷰] Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
  • [논문 리뷰] Distilling the Knowledge in a Neural Network
  • [논문 리뷰] TaskSense: A Translation-like Approach for Tasking Heterogeneous Sensor Systems with LLMs
  • [논문 리뷰] INFINI-GRAM MINI: Exact n-gram Search at the Internet Scale with FM-Index
gwlim3012
gwlim3012
공부한 내용 정리, 기록용 블로그
  • gwlim3012
    Stacking Intelligence
    gwlim3012
  • 전체
    오늘
    어제
    • 분류 전체보기 (30)
      • 공부 (21)
        • ML·DL (5)
        • 통계 (5)
        • CS (5)
        • 회로·반도체 (5)
        • 기타 (1)
      • 논문리뷰 (6)
      • 기타 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
gwlim3012
[논문 리뷰] Feature Extraction using Spiking Convolutional Neural Networks
상단으로

티스토리툴바