Clean Code that Works.

http://www.javacodegeeks.com/2013/02/40-java-collections-interview-questions-and-answers.html

저기 있는거 번역..
맨날 HashMap하고 ArrayList 만 쓰다 보면, 컬렉션 프레임워크가 뭔지 잊어 버릴때가...-_ -;;


======================================================================================================================

1. 자바 컬렉션 프레임워크는 무었이고, 이들을 사용하므로서 얻는 이득은 무엇인가?
  컬렉션은 대부분의 프로그래밍 언어에서 사용되고 있고 초창기 자바에서는 VectorStackHashtableArray만 제공되고 있었다. 자바 1, 2가 릴리즈 되면서 컬렉션 프레임워크들은 colletions 인터페이스를 구현하고 해당 알고리즘도 구현되었다. 자바 컬렉션들은 제너릭스의 활용과 Thread-safe한 기능들까지 제공하고 있다. 
컬렉션 프레임워크를 사용함으로써 얻을 수 있는 이점들을 아래와 같다.
  • 별도로 컬렉션 클래스를 구현하는 것보다 구현되있는것을 사용함으로써 코딩 시간을 감소 시킬 수 있다.
  • 컬렉션 프레임워크들은 잘 테스트 되고 검증되어있기때문에 코드 품질을 보장한다.
  • JDK에 포함된 컬렉션 프레임워크들을 사용하여 코드 유지보수 시간을 감소 시킬 수 있다.
  • 재사용 가능하고 상호 운용성이 보장 된다.

2. 컬렉션 프레임워크에 제너릭스가 도입되면서 생긴 장점은 무엇인가?
  자바 1.5 버전부터 제너릭스가 도입되었다. 제너릭스를 통해 컬렉션 관련 코드를 작성할때 해당 오브젝트의 타입을 지정할 수 있게되었고 이로 인해 잘못된 타입의 오브젝트를 세팅할 경우 컴파일 시점에서 이를 파악할 수 있게 되었다. 이로 인해 런타임시 발생하는 ClassCastException을 컴파일시 찾아 낼 수 있게 되었다. 그리고 제너릭스를 통해 클래스 캐스팅을 하지 않아도 되고 instansof 를 사용하지 않아도 되므로써 코드를 좀 더 깔끔하게 유지할 수 있게 되었다. 

3. 자바 컬렉션 프레임워크의 기본 인터페이스들은 무엇인가?
  • Collection 은 가장 기본이 되는 인터페이스이다. 자바는 이 인터페이스를 직접 구현한 클래스는 아무것도 제공하지 않는다.
  • Set 은 중복을 허용하지 않는 집합이다. 
  • List 는 중복을 허용하고 정렬이 가능한 컬렉션이다. 인덱스를 통해 아무런 엘리먼트나 접근할 수 있고, 길이 조정이 가능한 배열과 비슷하다고 할 수 있다.
  • Map 은 키/값을 가지고 있는 오브젝트다. 키값은 중복되어선 안되고 하나의 키 값은 하나의 값에 매핑된다.
다른 인터페이스들론 Queue, Deque, Iterator, SortedSet, SortedMap, ListIterator가 있다.

4. 왜 컬렉션은 Cloneable 과 Serializable 인터페이스를 상속받지 않았는가?
  컬렉션은 오브젝트들을 묶어서 관리하고 이를 어떻게 유지하는지는 관여하지 않는다. 예를들어 몇몇 컬렉션들은 중복 값을 허용하는 List를 사용하거나 중복 값을 허용하지 않는 Set같은것을 사용한다. 많은 컬렉션 구현체들이 clone 함수를 가지고 잇다. 하지만 이것이 모든 컬렉션이 전부다 clone 을 가지고 있어야 된다는 것을 의미 하지는 않는다. 컬력션은 추상 인터페이스고 실제 구현체에서 어떻게 사용해야 될지를 결정해야 된다.

5. 왜 Map 인터페이스는 컬렉션 인터페이스를 상속받지 않는가?
  Map 인터페이스와 이 구현체들은 컬렉션 프레임워크에 속하지만 Map은 컬렉션이 아니고 컬렉션 역시 Map이 아니다. 
만약 맵이 컬렉션 인터페이스를 상속 받았다고 치면 엘리먼트들은 어떻게 관리해야 될까? 맵은 키-값 을 가지고 있고 컬렉션 처럼 키와 값들을 검색하는 메서드들을 제공한다. 하지만 이 것은 "엘리먼트들의 그룹"이라는 컬렉션 인터페이스의 기본 개념과 맞지 않는다.

6. Iterator는 무엇인가?
  Iterator 인터페이스는 아무 컬렉션이든 반복적으로 수행하기 위한 메서드를 제공한다. iterator 메서드를 통해 컬렉션으로 부터 iterator instance를 가져올 수 있다. Iterator는 자바 컬렉션 프레임워크에서 Enumeration에 속한다. Iterator는 컬렉션을 순회하는 도중에 엘리먼트들을 삭제할 수 있다.

7. Enumeration 과 Iterator 인터페이스의 다른점은 무엇인가?
  Enumeration은 Iterator 보다 두배이상 빠르고 더 작은 메모리를 사용한다. Enumeration은 매우 간단하고 간단한 요구사항에 잘 동작되도록 최적화 되어 있다. 하지만 Iterator는 Enumeration에 비해 더 안전한데 그 이유는 Iterator가 사용될때 대상 컬렉션을 다른 쓰레드에서 접근해서 수정하는것을 막기 때문이다.
Iterator 는 자바 컬렉션 프레임워크의 Enumeration에 포함된다. iterator는 작업을 수행하면서 해당 엘리먼트를 삭제할 수 있지만 Enumeration은 불가능 하고 iterator의 메서드 이름은 기능적으로 명확하게 반복을 한다는 뜻으로 정의 되어있다.

8. 왜 다른 컬렉션 처럼 Iterator.add() 메서드는 없는가?
  이 말은 의미적으로 불명확 한데 iterator에 add를 추가 한다면 이는 반복작업의 순서를 보장하지 않는다. 하지만 ListIterator는 반복 작업을 할때 순서를 보장하기 때문에 add 기능을 제공한다.

9. 왜 Iterator는 Cursor 없이 직접적으로 이동할 수 있는 next 메서드를 제공하지 않는가?
  Iterator 인터페이스에 추가될 수는 있지만 많이 사용되지 않을 것이고, Iterator를 구현하는 클래스마다 이를 만들어 줘야 되기 때문에 제공되지 않는다. 그리고 Iterator(반복)이라는 의미와 맞지도 않는다.

10. Iterator 와 ListIterator의 차이점은 무엇인가?
  • Set과 List에 Iterator를 사용할 수 있지만 ListIterator에는 List만 가능하다.
  • Iterator 는 앞쪽으로 탐색을 하지만 ListITerator는 양방향 순회가 가능한다.
  • ListIterator는 Iterator 인터페이스를 상속받았고 추가적으로 Add, 엘리먼트 교체, 현제 index의 이전, 다음 엘리먼트 가져오기 등 많은 추가 기능을 제공한다.
11. List를 반복할 수 있는 방법은 무엇인가?
  Iterator를 사용하던가 for-each loop 를 사용하는 두가지 방법을 사용해서 List를 반복 할 수 있다.

01List<String> strList = new ArrayList<>();
02//using for-each loop
03for(String obj : strList){
04    System.out.println(obj);
05}
06//using iterator
07Iterator<String> it = strList.iterator();
08while(it.hasNext()){
09    String obj = it.next();
10    System.out.println(obj);
11}

 Iterator를 사용하는게 좀더 thread-safe한데 만약 반복 도중에 엘리먼트가 수정되려고 한다면 ConcurrentModificationException을 발생시킨다.

12. Iterator의 fail-fast에 대해 알고 있는것은 무엇인가?
  Iterator의 fail-fast 속성은 다음 엘리먼트에 접근 하려고 할 때 엘리먼트가 변한것이 있는지 확인하는 것이다. 만약 수정 사항이 발견된다면 ConcurrentModificationException를 발생시킨다. 모든 Iterator의 구현체는 ConcurrentHashMap이나 CopyOnWriteArrayList 동시성 관련된 컬렉션을 제외 하고 처럼 fail-fast를 사용하는 방법으로 디자인 되어 있다.

13. fail-fast 와 fail-safe 의 다른 점은 무엇인가?
  fail-fast를 사용하는 방식의 컬렉션들은 java.util 패키지에 들어가있고 fail-safe는 java.util.concurrent 패키지에 위치하도록 디자인되어 있다. Fail-fast Iterator는 ConcurrentModificationException 을 발생 시키고 fail-safe는 절대로 ConcurrentModificationException를 발생 시키지 않다. 

14. 컬렌션을 순회하는 도중에 ConcurrentModificationException이 발생하는것을 피할려면 어떻게 해야 되는가?
  concurrent 컬렉션을 사용하면 ConcurrentModificationException이 발생하는것을 예방 할 수 있다. ex) ArrayList 대신 CopyOnWriteArrayList를 사용

15. Iterator 인터페이스의 구현체가 없는 이유는 무엇인가?
  Iterator 인터페이스는 컬렉션들을 반복하는데 사용할 메서드들이 정의되어 있지만 실제 구현은 컬렉션의 구현체가 가지고 있다. 모든 컬렉션 클래스들은 순회를 하기 위해 내부에 Iterator를 구현한 코드를 가지고 있다. 이를 통해 iterator가 fail-fail을 사용할지 fail-safe를 사용할지 결정할 수 있도록 한다. ArrayList의 Iterator는 fail-fast이고 CopyOnWriteArrayList의 Iterator는 fail-safe이다.

16. UnsupportedOperationException 은 무엇인가?
  UnsupportedOperationException 은 사용할려는 메서드가 제공되지 않을 때 발생하는 오류이다. JDK 내에서도 넓게 사용되고 있으며 컬렉션 프레임워크에서는 모든 add 및 remove 메서드가 java.util.Collections.UnmodifiableCollection 를 던진다.

17. 자바에서 HashMap은 어떻게 동작하는가?
- HashMap 은 키-값 쌍으로 사용하도록 구현되어 있다. HashMap은 해싱 알고리즘을 사용하고 hashCode()와 equals()를 put() 과 get()을 쓸대 사용한다. 키-값 을 저장하기 위해 put 메서드를 호출 하면 HashMap은 key의 hashCode()를 호출해서 맵에 저장되어 있는 값 중에 동일한 key가 있는지 찾는다. 이 Entry는 LinkedList에 저장되어 있고 만약 존재하는 entry면 equals()메서드를 사용해서 key가 이미 존재 하는지 확인 하고 만약 존재 한다면 value값을 덮어 씌워서 새로운 키-값 으로 저장한다. 키를 가지고 get 메서드를 호출하면 hashCode()를 호출해서 array에서 값을 찾고 equals()메서드를 가지고 찾고자 하는 key와 동일한지 확인한다. 아래 이미지를 보면 명확하게 알 수있다.


HashMap에 대해 알아야할 다른 중요한 것은 capacity, load factor, threshold resizing이다. HashMap은 기본적으로 capacity 는 32, load factor는 0.75로 세팅하고 Threshold는 entry를 추가할 때 마다 capacity에 load factor를 곱한 값이 된다. 만약 map이 크기가 threshold 보다 크면 HashMap은 더 큰 capacity를 사용하도록 맵을 재 해시한다. capacity는 항상 
데이터베이스의 데이터를 캐싱하는 것 같은 많은 수의 key-value 쌍을 저장할때 알아야된다. 이것은 HashMap을 적절한 capacity 와 load factor를 사용해서 초기화 하는 좋은 방법이다.

18. hashCode()와 equals() 메서드의 중요점음 무엇인가?
  HashMap은 Key 오브젝트의 hashCode()와 eqauls()메서드를 사용해서 key-value 값을 저장할 위치를 결졍하고 HashMap에서 값을 꺼내올때도 사용한다. 만약 이 메서드들이 올바르게 구현되지 않았다면 다른 두개의 Key가 같은 hashCode() 및 eqauls() 결과를 내놓을 수 있고 이는 value 값들을 잘못된 의도하지 않은 값으로 덮어 씌울 가능성이 있다. 
equals()와 hashCode()의 구현은 아래 기본룰을 따라야 된다.
  • If o1.equals(o2), then o1.hashCode() == o2.hashCode()should always be true.
  • If o1.hashCode() == o2.hashCode is true, it doesn’t mean that o1.equals(o2) will be true.
19. 아무 클래스나 Map의 Key로 사용할 수 있는가?
 아무 클래스나 사용 가능 하지만 아래 몇몇 주의사항을 따라야 된다.
  • 만약 클래스가 equals()를 overrides 했다면 hashCode() 역시 override 해야 한다.
  • 18번에 언급된 기본 구현 규칙을 따라야 한다.
  • equals() 메서드가 사용되지 않으면 hashCode()도 사용하지 않아야 한다.
  • 가장 좋은 방법은 key 클래스를 불변(immutable)으로 만드것이다. 이렇게 하면 hashCode()값은 캐시되어 빠른 성능을 가진다. 또한 불변 클랙스는는 hashCode() 및 equals()의 값이 변하지 않기 때문에 해당 값이 변해서 생기는 문제들을 해결할 수 있다. 예를 들어 아래 HashMap의 key 로 사용될 MyKey 클래스를 살펴봐라.
01//MyKey name argument passed is used for equals() and hashCode()
02MyKey key = new MyKey('Pankaj'); //assume hashCode=1234
03myHashMap.put(key, 'Value');
04 
05// Below code will change the key hashCode() and equals()
06// but it's location is not changed.
07key.setName('Amit'); //assume new hashCode=7890
08 
09//below will return null, because HashMap will try to look for key
10//in the same index as it was stored but since key is mutated,
11//there will be no match and it will return null.
12

myHashMap.get(new MyKey('Pankaj'));


이런 이유로 인해 대부분 String 이나 Integer 값들을 HashMap의 키로 사용한다.

20. Map 인터페이스가 제공하는 다른 Collection 뷰는 무엇인가?
  Map 인터페이스는 아래 3가지 형태의 collection view 를 제공한다.
  • Set keySet(): 맵에 존재하는 Key 값들을 Set으로 보여준다. 이 set들은 맵과 연결되어 있으며 맵을 바꾸거나 set을 바꾸면 값이 수정 된다. 만약 키 Set을 사용하는중에 map이 변경 되면 Set을 반복할때 나오는 결과값은 undefined 되게 된다. Set은 엘리먼트들을 지울 수 있고 이에 대응하는 값은 맵에서 삭제 된다.(remove, Set.remove, removeAll, retaionAll, clear) add 나 addAll같은 기능은 제공하지 않는다.
  • Collection values() : 맵에 존재하는 Value 들을 컬렉션 형태로 보여준다. 이것 역시 맵과 연동되어 있으며 collection을 수정 하면 map의 값이 수정된다. 
  • Set<Map.Entry<K, V>> entrySet() : 맵의 entry 들을 Set 형태로 보여준다.
21. HashMap과 Hashtable의 차이점은 무엇인가?
  HashMap과 Hashtable은 둘다 Map 인터페이스를 구현하고 있어서 비슷해 보이지만 아래와 같은 차이점이 존재한다.
  • HashMap은 키/값에 null을 허용하는 반면 Hashtable은 이를 허용하지 않는다. 
  • Hashtable은 synchronized (synchronized) 되어 있지만 HashMap 은 그렇지 않다. 그래서 HashMap 은 단일 스레드 환경에서 더 좋은 퍼포먼스를 보여준다. 반면, Hashtable은 멀티 스레드 환경에 적합하다. 
  • LinkedHashMap 은 자바 1.4에서 HashMap의 서브클래스로 소개되었다. 그렇기 때문에 iteration 의 순서를 보장받고 싶다면,  HashMap에서 LinkedHashMap으로쉽게 변경 가능하다. 그러나 Hashtable 에서는 그럴 수 없으므로 iteration 순서를 예측할 수 없다.  
  • HashMap은 iterator 키 셋을 제공하므로 fail-fast (12 참고) 기능을 사용하나 Hashtable은 Enumeration 키를 사용하므로 이런 기능을 제공하지 못한다. 
  • Hashtable은 legacy 클래스로 취급을 받기 때문에 만약 Map에서 iteration을 하는 도중에 수정가능한 Map을 사용하고 싶다면 ConcurrentHashMap을 사용하면 된다. 
22. HashMap과 TreeMap중 무엇을 사용할지 어떻게 판단하는가?
  엘리먼트들을 추가, 삭제, 위치 변경등 작업을 하고 싶으면 HashMap이 최고의 선택이다. 하지만 만약 정렬되어 있는 key값에 따라 탐색을 하기 원한다면 TreeMap을 사용하는 것이 더 좋다. 컬렉션에 크기에 따라 다르지만 HashMap에 엘리먼트를 추가 하고 이를 TreeMap으로 변환하는게 키를 정렬해서 탐색하는 경우보다 더 빠르게 동작 한다.

23. ArrayList와 Vector간의 비슷한점과 차이점은 무엇인가?
  ArrayList와 Vector는 여러면에서 비슷하다
  • 인덱스 기반이고 내부적으로 배열로 백업 할 수 있다.
  • 엘리먼트들을 추가한 순서를 가지고 있고 이 순서를 가져 올 수도 있다.
  • iterator를 구현하였으므로 fail-fast 방식이다.
  • null 값을 가질 수 있고 인덱스 번호를 사용해 랜덤으로 접근 할 수 있다.

  아래는 ArrayList와 Vector의 차이점이다.
  • Vector는 synchronized 되어 있지만 ArrayList는 그렇지 않다. 만약 iterating 중에 엘리먼트를 수정 하고 싶다면 CopyOnWriteArrayList를 사용하면 된다.
  • ArrayList는 synchronized에 따른 간접비용이 아무것도 없기 때문에  Vector보다 빠르다. 
  • ArrayList가 좀 더 다재다능 한데 Collection Utility 클래스에서 제공하는 기능으로 synchronized를 시키거나 읽기 전용 리스트를 만들수도 있다.

24. Array와 ArrayList의 차이점은 무엇이고 언제 ArrayList를 사용해야 하는가?
  Array는  primivite 타입이나 Object 둘다 사용 가능 하지만 ArrayList는 Object만 사용 가능하다.
Array는 길이가 고정이 되있지만 ArrayList는 동적으로 변경 가능하다.
Array는 ArrayList처럼 다양한 기능을 제공하지 않는다.(addAll, removeAll, iterator 등등) 목록에 관련된 작업을 할때 ArrayList를 사용하는 것이 좋지만 가끔 Array를 사용하는것이 좋을 때가 있다
  • 리스트의 크기가 고정되어 있고 값을 저장하거나 탐색 용도로만 쓸 경우
  • primitive 타입일 경우 
  • 만약 다차원 배열을 사용할 경우 [][] 배열을 사용하는게 List<List<>>를 쓰는것보다 쉽다.

25. ArrayList와 LinkedList의 차이점은 무엇인가?
  둘다 List 인터페이스를 구현하지만 약간 다른 점이 있다.
  •  ArrayList는 인덱스 기반의 Array로 구성되어 있어서 랜덤 엑세스를 할 경우 O(1)의 속도를 가진다. LinkedList는 데이터들이 이전, 다음 노드 처럼 서로 연결된 node로 구성되어 있다. 인덱스 번호를 사용해서 엘리먼트에 접근 하더라도 내부적으로는 노드들을 순차적으로 순회하며 엘리먼트를 찾는다. LinkedList 의 속도는 O(n)으로 ArrayList 보다 느리다.
  •  엘리먼트의 추가 및 삭제는 LinkedList가 ArrayList보다 빠른데 엘리먼트를 추가 및 삭제하는 중에 array를 리사이즈 하거나 인덱스를 업데이트를 할 일이 없기 때문이다.
  •  LinkedList의 엘리먼트들은 이전, 다음 엘리먼트들에 대한 정보를 가지고 있기 때문에 LinkedList가 ArrayList보다 더 많은 메모리를 소비한다.
 
 26. 랜덤 액세스를 제공하는 컬렉션은 무엇인가?
   ArrayList, HashMap, TreeMap, Hashtable 이 자신의 엘리먼트에 대한 랜덤 엑세스를 제공한다. 

  

27. EnumSet은 무엇인가?
  java.util.EnumSet은 Enum 타입을 활용해서 Set을 구현한 클래스다. Set이 생성 될 때 Set 안의 모든 엘리먼트들은 하나의 enum 타입을 구현한 것이어야 한다. EnumSet은 synchronized되어있지 않고 null 엘리먼트도 허용하지 않는다. copyOf, of, complementOf 같은 유용한 메서드를 제공한다. 아래 포스트를 참조보길 바란다.
  
28. thread-safe 한 컬렉션 클래스들은 무엇이 있는가?
  Vector, Hashtable, Properties, stack 은 synchronized 되어있는 클래스로 thread-safe 기 때문에 multi-thread 환경에서도 정삭적으로 동작한다. Java 1.5의 Concurrent AP에 포함되어 있는 몇몇 컬렉션 클랙스들은 반본 작업을 수행하는 도중에 컬렉션을 수정할수 있는데 이는 컬렉션의 복사본을 통해 작업을 하고 있기 때문이고 이들 역시 multi-thread 환경에서 안전한다.
  
29. Concurrent 컬렉션 클래스는 무엇인가?
  Java 1.5 Concurrent 패키지는 thread-safe 하고 ireating 작업 중에 컬렉션을 수정할 수 있는 클래스들을 포함하고 있다. Iterator는 fail-fast 하도록 디자인되어있고, ConcurrentModificationException을 발생 시킨다. 가장 잘 알려진 클래스로는 CopyOnWriteArrayListConcurrentHashMapCopyOnWriteArraySet이 있다. 
이 클래스들에 대해서는 아래 포스트를 참조 하길 바란다.
30. BlockingQueue는 무엇인가?
  java.util.concurrent.BlockingQueue는 엘리먼트들을 검색하거나 삭제 할때 대기하고, 큐에 엘리먼트가 추가 될 때 저장공간이 충분해 질때까지 기다리는 기능을 제공하는 Queue 이다. BlockingQueue는 자바 컬렉션 프레임워크에서 제공하는 인터페이스중에 하나로 주로 producer-consumer 문제에 주로 사용된다. BlockingQueue를 사용하면 producser가 cosumer에게 Object를 전달할때 저장공간 부족에 따르는 여러 문제점을 걱정할 필요가 없다. Java에서는 BlockingQueue를 구현한 ArrayBlockingQueue, LinkedBlockingQueue, PriorityBlockingQueue, SynchronousQueue등을 지원 한다.
  producer-consumer 문제에 BlockingQueue를 사용한 예제는 이 포스트를 참고 하라.
  
31. Queue, Stack 간의 차이점은 무엇인가?
  Queue와 Stack은 작업을 진행하기 전에 데이터를 저장하는데 사용된다. java.util.Queue
Queue는 엘리먼트들에 접근할때 First-In-First-Out(FIFO)를 사용하지만 항상 그러는 것은 아니다. Deque 인터페이스를 사용해서 양쪽 끝에서 엘리먼트에 접근할 수 있다. 
Stack은 queue와 비슷하지만 엘리먼트를 검색할때 Last-In-First-Out(LIFO)방식을 사용한다. 
Stack은 Vector 클래스를 확장해서 사용하지만 Queue는 인터페이스일 뿐이다.

32. Collections 클래스는 무었인가?
  java.util.Collections 는 유틸리티 클래스로 static 메서드로 구성되어 있고 컬렉션들을 조작하는데 사용된다. 다형성을 활용한 알고리즘들을 가지고 컬렉션을 조작하고 정의된 컬렉션의 형태로 새로운 컬렉션을 반환하고 다른 몇가지 기능들도 지원한다. 이 클래스는 컬렉션 프레임워크의 알고리즘(이진 검색, 정렬, 섞기, 뒤집기등)을  포함하고 있다.
  
33. Comparable 인터페이와 Comparator 인터페이스는 무엇인가?
  Java는 Arrays 와 Collections에 사용되는 정렬 메서드를 사용하기 위해 Comparable 인터페이스를 제공한다. 이 인터페이스는 compareTo 메서드를 가지고 정렬을 하는데 사용한다. 이 메서드를 구현할때 리턴값으로 음수, 0, 양수를 통해 엘리먼트들을 정렬하는데 사용하는데, 만약 비교하는 오브젝트가 적거나, 똑같거나, 크거나 하는 경우에 따라 리턴한다. 
그렇지만 실제 환경에서 사용할 경우에는 서로 다른 파라미터를 가지고 정렬을 하는 경우가 있을 것이다. 예를들어 CEO의 경우 연봉에 따라 사원들을 정렬하고 싶을수도 있고 HR에서 사원들의 나이를 가지고 정렬을 할 경우가 있다. 바로 이런 상황에서 Comparator 인터페이스를 사용하면 되는데 Comparable.compareTo(Object o)는 하나의 필드만 가지고 정렬을 수행하기 때문에 정렬에 필요한 오브젝트들 선텍할 수 있다. Comparator 인터페이스는 두개의 파라미터를 가지고 있는 compare(Object o1, Object o2) 메서드를 제공하는데 이 메서드는 만약 첫번째 변수가 두번째 변수보다 작으면 음수를 리턴하고 만약 두 값이 같으면 0, 더 크면 양수를 리턴한다.

Comparable 및 Comparator 인터페이스에 대해서 더 알고 싶으면 이 포스트를 참고 하라.

34. Comparable 인터페이스과 Comparator 인터페이스의 차이점은 무엇인가?
  Comparable 및 Comparator 인터페이스는 collection 및 Array 오브젝트들을 정렬 하는데 사용한다. Comparable 인터페이스는 오브젝트를 사용하여 정렬하는 방식을 제공하고 간단한 방식으로 제공된다. 
  Comparator 인터페이스는 정렬을 위한 다른 알고리즘을 제공하는데 정렬을 할 오브젝트들 중에서 특정 값을 선택하여  정렬하는데 사용할 수 있다.
  
35. Object들의 목록을 정렬시키려면 어떻게 해야 되는가?
  Object들의 배열을 정렬해야 될때는 Arrays.sort()를 사용하면 된다. 만약 오브젝트 목록들을 정렬시키고 싶으면 Collections.sort()를 사용하면 된다. 이 두 클래스는 sort() 메서드를 오버라이드 하고 있고 Comparable을 사용한 정렬 이나 Comparator를 사용한 정렬을 사용할 수 있다. Collections는 내부적으로 Arrays 의 sorting 메서드를 사용하고 있고, list를 array로 변환하는 경우를 제외하고 동일한 성능을 보여준다.
  
36. 만약 Collections를 함수에 파라미터로 전달할 경우, 이를 수정하지 못하게 할려면 어떻게 해야 되는가?
  함수로 파라미터를 전달하기 전에 Collections.unmodifiableCollection(Collection c) 메서드를 사용해서 읽기전용 커렉션을 생성할 수 있고 만약 컬렉션을 수정할려는 시도가 생기면 UnsupportedOperationException을 발생 시킨다.
  
37. 기존 컬렉션을 가지고 동기화된 컬렉션을 만들려면 어떻게 해야 되는가?
  Collections.synchronizedCollection(Collection c)를 사용해서 동기화된(thread-safe)한 컬렉션을 만들 수 있다.
  
38. 컬렉션 프레임워크내부에서 구현된 일반 알고리즘들은 무엇인가?
  컬렉션 프레임워크들을 일반적으로 알려진 정렬 및 검색 알고리즘에 대한 구현을 제공하고 Collections 클래스들은 이 메서드들을 가지고 있다. 대부분의 알고리즘음 List에서 주로 사용되지만 모든 컬렉션에도 사용할 수 있다.(정렬, 검색, 섞기, 최소-최대 값 찾기)

39. Big-O 표기법은 무엇인가? 예를 들어 줄 수 있는가?
  Big-O 표기법은 데이터 구조에 포함된 엘리먼트들의 숫자에 따라 알로리즘의 성능을 설명해주는 표기법이다. Collection 클래는 사실 데이터 구조이기 때문에 어떤 컬렉션을 사용할지 고려할때 시간, 메모리, 성능에 대한 Big-O 표기법을 기준으로 선택할때가 많다.
  • 예1 : ArrayList get(index i)는 엘리먼트의 숫자에 영향을 받지 않고 동일한 성능을 보여주기 때문에 Big-O 표기법으료 표시하면 O(1)으로 표기 할 수잇다.
  • 예2 : 배열이나 리스트에 대한 선형 탐색은 엘리먼트를 찾는데 엘리먼트들의 숫자에 영향을 받기 때문에 O(n)으로 표시한다.

40. Java 컬렉션 프레임워크의 모범사례는 무엇인가?
  • 필요에 따라 상황에 맞는 컬렉션을 선택해야 된다. 예를 들어 사이즈가 고정되어 있으면 ArrayList보다 Array를 사용할 수 있다. 만약 맵에 삽입된 순서되로 iterate를 하고 싶으면 TreeMap을 사용하는것이 좋다. 중복을 허용하고 싶으 않으면 Set을 사용하면 된다.
  • 몇몇 컬렉션 클래스들을 초기 용량을 지정할 수 있다. 만약 저장할 엘리먼트들의 사이즈를 알 경우에 초기 용량을 지정함으로써 rehashing이나 resizing이 일어나는것을 회피할 수 있다.
  • 코드를 작성할때 구현 클래스가 아닌 인터페이스를 기반으로 작성해야 나중에 구현체를 변경할때 코드를 재작성하는 수고를 줄일수 있다. 
  • 런타임에 발생할 수 있는 ClassCastException을 회피할려면 항상 제너릭스를 사용해서 type-safety 한 상태를 유지하라
  • 맵에 키를 사용할때 JDK에서 재공하는 immutable 클래스를 사용하여 사용자 클래스에서 hashCode()와 equals() 구현할 필요가 없게 하라
  • 읽기전용 및 동기화, 빈 컬렉션등을 만들때는 자신만의 구현으로 생성하지 말고 Collections에서 제공하는 유틸리티 클래스를 사용하라. 이는 코드 재사용성을 높여주고 안정적이며 유지보수 비용을 줄여 준다.


오랜만에 간단 번역.

이번엔 dzone.com의 TOP POST 2013: There are only 2 Roles on code. 를 번역해 보았습니다.
전체적인 내용은 객체지향 프로그래밍 및 설계의 다섯가지 기본 원칙(SOLID)중에 단일 책임 원칙(Single responsibility priciple)을 좀 더 자세히 설명한 것 같은 느낌이네요. 

중간에 TTD와 단위 테스트를 진행 하는 것보다 더 중요한 것은 한가지 역할에 집중하는 코드를 만드는 것이라 라는 내용이 나오는데, 이게 가장 중요한 내용 같습니다. 가끔 테스트 코드를 살펴보면 mock으로 도배되다 싶이 한 코드가 있는데.. 이걸 보면 이 코드를 어떻게 이해해야되고 수정해야 되는지 난감한데요. 이 포스트에 등록된 내용을 항상 마음속에 곱씹으며 개발하는 습관을 들이면 좀 더 좋은 날이 올것 같습니다. ㅎㅎ

코드를 테스트 하는 화려한 테스트 코드를 작성하는 것보다 단일 기능에 집중하는 클래스 설계를 진행 한다면, 단위 테스트에 작성되는 코드량과 시간을 감소 시킬 수 있고, 후에 유지보수도 쉽게 진행할 수 있습니다.

여기서 알고리즘은 프로그램 내에 있는 비즈니스 로직(핵심 기능)으로 생각하셔도 될 것 같습니다.

========================================================================

모든 코드는 두가지 역할로 분류될 수 있다. 알고리즘 처럼 작업을 하는 것과 작업을 조절 하는 것.

실제 환경에서 코드 베이스들의 복잡성은 한 곳에 이런 역할들을 같이 두기 때문에 발생한한다.

내가 작성했던 코드들의 90%정도가 알고리즘과 작업을 적절히 구분하지 못했던 것에 스스로 죄책감을 느끼고 있다.

일을 좀 더 명확하게 정의 하기.

왜 코드들을 알고리즘과 코디네이터로 구분을 해야 할까. 
알고리즘과 코디네이터들이 의미하는게 무엇인지 먼저 알아 보기로 하자.

우리 대부분은 common algorithms in Computer Science에 나오는 버블 소트나 이진 검색 같은것을 자주 들어서 익숙하지만 우리가 작성한 코드들이 알고리즘을 포함하여 동작하고 있다는 것을 때때로 깨닫지 못하고 있다. 

어떤 문제를 해결하거나 어떤 작업이 수행되는 명령 또는 단계들이 있고 이 단계들은 데이터를 가지고 동작하고 외부로부터 독립되어있다. (버블 소트처럼 정렬이 되는것, 데이터만 제공 하면 정렬이 됨)

우리가 작성하는 모든 코드들은 본질적으로 테스트가 가능 해야 되고 , 우리가 알고 있는 일반적인 정렬 알고리즘 처럼 잠재적으로 독립되어 동작되어야 한다. 

알고리즘들을 프로젝트로부터 제거한다면 프로그램에 남아 있는 것들은 단순히 알고리즘들을 연결하는 코드뿐일 것이다.

코드에서 알고리즘과 코디네이터를 분리하는것이 왜 중요한가

코드들을 잠재적으로 두 큰 카테고리로 분리 해야 된다는 것을 알았다. 
다음 단계는 왜 이렇게 분리해야되고 어떻게 하면 분리 할 수 있는지 확인하는 것이다.

알고리즘을 다른 코드를 조작하는 것들과 분리하면서 얻게 되는 가장 큰 이점은 알고리즘 코드가 독립적으로 동작 한다는 것이다.

알고리즘 코드를 독립적으로 관리한다면 아래 3가지 내용을 즉시 확인 할 수 있다.
1. 단위 테스트를 하기 쉬어진다.
2. 재사용이 쉬어진다.
3. 복잡도가 감소된다.

Mock 방식을 사용하지 않고 IoC 컨테이너가 드물게 사용되고 있었을때는 TTD는 정말 완전 어려웠다.
내가 처음 일을 시작할 때는 TDD를 활용해서 코드 커버리지를 100%로 맞출수 있을꺼라 생각했지만, 그때는 mock 프레임워크나 IoC 컨테이너가 존재 하지 않을 때라서 지금 생각해 보면 미친짓이었다.

만약 당신이 작성하는 코드를 TDD방식으로 하고 싶으면 알고리즘과 관련된 로직들을 분리해내야 된다.
만약 신뢰할만한 단위 테스트를 진행 하고 싶으면 클래스를 작성할때 최소한의 의존성을 가지고 있도록 해야된다.

많은 개발자들이 TDD를 어려워 하는 이유는 실제 코드를 작성하다 보면 다른 코드에 많은 의존성들이 생기기 때문이다. 이 의존성들의 문제들을 해결하기 위해 이 코드들에 대해서 가짜 버전을 만들 필요가 있어졌다.
이를 해결하기 위해 의존성이 필요한 부분을 Mock으로 대체 하는 방법이 고안되고 IoC 컨테이너를 사용하는 아키텍쳐가 인기 있게 되었다.

TDD와 유닛 테스트는 어디에서나 동작 할 수 있는 코드로 작성 되어야 하지만 TTD보다 더 중요한 점은 알고리즘 코드를 이와 관련 없는 코드로 부터 분리해내야 된다는 것이다.

더 좋은 방법!

이 문제를 해결할 수 있는 방법은 꾸준한 노력을 기울이는 것이다. 
이를 수행하기 위해 필요한 최소한의 노력은 IoC 컨테이너를 사용하고 시간이 날때마다 단위 테스트를 작성하고 조금씩 리팩토링을 진행 하도록 하는것이다. 

아래에서 간단한 예제를 볼 것이다. 
이 예제에서 가장 중요한 점은 코드들이 의존성을 제거하는 리팩토링을 진행하고 로직을 명확하게 분류해 내는것을 이해 하는 것이다.

Calculator 클래스를 살펴보자.

01.public class Calculator
02.{
03.private readonly IStorageService storageService;
04.private List<int> history = new List<int>();
05.private int sessionNumber = 1;
06.private bool newSession;
07. 
08.public Calculator(IStorageService storageService)
09.{
10.this.storageService = storageService;
11.}
12. 
13.public int Add(int firstNumber, int secondNumber)
14.{
15.if(newSession)
16.{
17.sessionNumber++;
18.newSession = false;
19.}
20. 
21.var result = firstNumber + secondNumber;
22.history.Add(result);
23. 
24.return result;
25.}
26. 
27.public List<int> GetHistory()
28.{
29.if (storageService.IsServiceOnline())
30.return storageService.GetHistorySession(sessionNumber);
31. 
32.return new List<int>();
33.}
34. 
35.public int Done()
36.{
37.if (storageService.IsServiceOnline())
38.{
39.foreach(var result in history)
40.storageService.Store(result, sessionNumber);
41.}
42.newSession = true;
43.return sessionNumber;
44.}
45.}

이 클래스는 간단한 덧셈 계산을 하고 결과를 storage 서비스를 통해 저장하는 일은 하는 것이다.
아주 복잡한 코드는 코드는 아니다. Calcalator 클래스는 storage service를 필요로 한다.

이 클래스는 로직을 추출해서 클래스를 재작성하는 작업을 통해 의존성이 제거된 클래스를 만들수 있고, 조정클래스는 로직을 전혀 가지고 있지 않은 것을 볼 수 있다.

01.public class Calculator_Mockless
02.{
03.private readonly StorageService storageService;
04.private readonly BasicCalculator basicCalculator;
05. 
06.public Calculator_Mockless()
07.{
08.this.storageService = new StorageService();
09.this.basicCalculator = new BasicCalculator();
10.}
11. 
12.public int Add(int firstNumber, int secondNumber)
13.{
14.return basicCalculator.Add(firstNumber, secondNumber);
15.}
16. 
17.public List<int> GetHistory()
18.{
19.return storageService.
20.GetHistorySession(basicCalculator.SessionNumber);
21.}
22. 
23.public void Done()
24.{
25.foreach(var result in basicCalculator.History)
26.storageService
27..Store(result, basicCalculator.SessionNumber);
28. 
29.basicCalculator.Done();
30.}
31.}
32. 
33.public class BasicCalculator
34.{
35.private bool newSession;
36. 
37.public int SessionNumber { get; private set; }
38. 
39.public IList<int> History { get; private set; }
40. 
41.public BasicCalculator()
42.{
43.History = new List<int>();
44.SessionNumber = 1;
45.}
46.public int Add(int firstNumber, int secondNumber)
47.{
48.if (newSession)
49.{
50.SessionNumber++;
51.newSession = false;
52.}
53. 
54.var result = firstNumber + secondNumber;
55.History.Add(result);
56. 
57.return result; ;
58.}
59. 
60.public void Done()
61.{
62.newSession = true;
63.History.Clear();
64.}
65.}

BasicCalculator 클래스를 보면 아무런 외부 의존성을 가지고 있지 않고 이는 단위 테스트를 쉽게 진행 할 수 있다는 것을 의미한다. 
실제 로직도 전부 포함 하고 있기 때문에 더 이해 하기가 쉽고 Calculator_Mockless 클래스는 코드들을 조정하는 역할 만 한다.

위 예는 기본적인 예제이긴 하지만 인위적이진 않다. 무슨말이냐면 의도적으로 작성한 코드는 아니고 실제 운영되고 있는 서비스에서도 볼 수 있는 그런 예이다.

마지막 조언.
목 객체를 전부 제거하거나 목 객체를 사용할 생각이 전혀 없다면 작성하는 코드들을 명확히 알고리즘과 코드 조합 부분을 구분해서 작성 해야 된다.

이것은 매우 어렵기 때문에 나 역시 이 방법이 익숙해 지도록 매번 노력하고 있다. 하지만 이 방법을 잘 수행된다면 반드시 큰 이익이 있을 것이라 생각한다. 

코드들로 부터 알고리즘을 분리해 낸다면 전체 시스템 구조를 이해하는데도 큰 도움이 된다. 


CKEditor 사용하면서 찾았던 내용 정리.

CKEDITOR.replace("contents", {

height: 350, // 높이 수정

allowedContent: true // 소스코드 포함 수정(you tube 링크 걸 경우)

});


웹 서핑중에 비밀번호 암호화 관련해서 좋은 글이 있어서 번역해 봤습니다. 

개인 프로젝트를 하던 다른 서비스 프로젝트들 하던 사용자의 비밀번호를 암호화하는것은 중요한데요. 
암호화 하기 위해서 보통 해싱 함수를 사용해서 비밀번호를 해싱하고 여기에 "소금을 친다(Adding Salt)" 라는 방법을 사용합니다.
이 내용에 대한 설명이 전반적으로 잘 되어 있네요. 

노력은 했지만 많이 부족하니... 원문 읽어 보시는 것도 강추 드립니다. 

비밀번호 해싱이란 무엇인가, 해싱값이 어떻게 해킹되나?, 소금 치기 에 대한 내용입니다.

=======================================================================

만약 웹 개발자라면 사용자 계정이 포함된 시스템을 만들어본 경험이 있을 것이다. 이 시스템에서 가장 중요한 점은 사용자의 패스워드가 어떻게 보호되고 있는가 이다. 사용자 정보를 가지고 있는 데이터베이스는 자주 해킹 당하고 만약 보호책이 없다면 반드시 비밀번호를 보호 하도록 해야 한다. 암호를 보호하는 가장 좋은 방법은 소금을 친 해싱을 사용하는 것이다.(소금을 치다 -> 패스워드를 보호하기 위해 특별한 값(소금)을 추가 하는 것) 이 페이지에서는 이 방법을 왜 수행하는지 설명할 것이다.

제대로 비밀번호 해시를 수행하는 방법에 대한 여러 상충하는 아이디어들과 오인들이 존재 한다. 아마 웹에 존재하는 잘못된 정보들 때문일 것이다. 비밀번호 해싱은 아주 간단한 것인데 많은 사람들이 오해 하고 있다. 이 페이지를 통해 해싱을 올바르게 사용하는 방법과 왜 이렇게 해야 되는지에 대해서 설명할 것이다.

 중요한 경고! 만약 자신만의 비밀번호 해싱 방법을 가지고 있다면 그렇게 하지 말아라! 그 방법은 망가지기 쉽다. 만약 암호학을 전공하고 있다고 해도 이 경고를 무시해서는 안된다. 이 경고는 모두에게 적용된다. 절대 자신만의 암호화 방법을 만들지 말라.비밀번호 저장에 관련된 문제는 이미 해결 되어있다. 


비밀번호 해싱이란 무엇인가?

해싱 알고리즘은 단방향성을 가지고 있고 고정된 길이의 "fingerprint" 값을 제공한다. 위의 예제 처럼 한글자만 변경되도 전혀 다른 해쉬 값을 생성한다. 이 방법은 비밀번호가 인코딩 되어 저장될때 디코딩할 수 없기 때문에 비빌번호를 보호하는데 아주 좋은 방법이다. 이 방법과 동시에 사용자가 입력한 패스워드가 동일한지도 검증을 해야 한다.


해쉬를 기본으로 사용하는 계정관리 시스템에서 사용하는 사용자 등록 및 인증 관련 흐름은 아래와 같다.
1. 사용자가 계정을 생성한다.
2. 사용자의 비밀번호는 해싱되어 데이터베이스에 저장된다. 원본 패스워드는 하드 디스크 어디에도 기록되지 않는다.
3. 사용자가 로그인을 시도 할 때 사용자가 입력한 패스워드의 해시값이 데이터베이스에 저장된 값과 동일 한지 비교 한다.
4. 만약 해시값이 동일하면, 사용자는 로그인에 성공하고 아니면 잘못된 값을 입력했다고 알려준다.
5. 로그인을 계속 시도 하는경우 3~4번 과정을 반복한다.

4번째 과정에서, ID가 잘못됬는지 입력한 비밀번호가 잘못되었는지는 절대로 알려주지 않는다. 항상 "사용자 ID 및 비밀번호 가 일치 하지 않습니다" 메시지를 노출 시켜야 한다. 이 방법은 암호를 모르는 상태에서 유효한 아이디를 가지고 비밀번호를 무작위로 입력할 수 있는 방법을 방어 할 수 있다.

암호를 보호하기 위해 생성된 해시 함수는 데이터 구조학 강좌에서 사용되는 해쉬 함수와 동일한 것이 아닌것을 알아야 한다. 해쉬 함수는 보안을 위해서 고안된 것이 아니라 데이터 구조학에서 해쉬 테이블을 빠르게 사용하기 위해서 만들어진 것이다. 암호화된 해쉬 함수 만이 비밀번호를 해싱 하는데 사용되어야 할 것이다. 암호화 해쉬 함수로는 SHA256, SHA512, RipeMD WHIRLPOOL 같은 것들이 있다.

암호화 해쉬 함수를 통해서 비밀번호를 관리하면 사용자들의 비밀번호는 안전할 것이라고 생각할 수 있다. 이것은 현실과는 꽤 다른데 아주 빠르게 일반 해시 암호를 찾아 낼 수 있는 방법이 있다. 하지만 이 공격 방법에 덜 영향을 받는 효과적인 몇가지 방법이 존재한다. 이러한 기술의 필요성에 대한 동기를 부여하기 위해서 웹사이트를 생각해보자. 메인 화면에서 해킹된 비밀번호 해쉬 값들을 전달해보고면 이 결과가 1초도 안되서 표시되는것을 볼 수 있다.(해킹된 비밀번호 해독 해서 입력 하는것 말하는 듯..)
확실히 비밀번호를 간단하게 해싱하는 것만으로는 보안에 대한 요구사항을 충족 시킬 수 없다.

다음 섹션에서는 해킹된 일반 해싱 비밀번호를 사용한 일반적으로 알려진 공격에 대해서 논의할 것이다.

해쉬가 해킹 되는 방법

단어 사전 입력 공격 및 무차별 대입 공격 


해쉬를 해킹하는 가장 쉬운 방법은 비밀번호를 여러가지로 예측해보고 반복해서 입력해보는 것이다. 가장 유명한 패스워드 예측 방법은 단어 사전을 통한 공격과 무차별 대입 공격이다. 

단어 사전 공격은 단어나 일반적인 비밀번호 등 비밀번호로 쓰일만한 단어들을 가지고 공격을 하는 것이다. 각각 단어들을 먼저 해싱해 놓고 해싱 되어 있는 비밀번호와 비교한다. 해쉬 값이 일치 하면 바로 그 단어가 비밀번호가 된다. 이 단어 사전 파일을 텍스트들에서 추출하여 구성되고 있기도 하고 심지어는 실제 데이터베이스에서도 추출하여 구성되어 있기도 한다. 

무차별 대입 공격은 주어진 비밀번호의 길이에 맞춰 가능한 모든 글자의 조합을 사용하는 것이다. 이 방법은 계산 비용이 비싸고 효율이 가장 좋지는 않지만 결국 비밀번호를 찾는데 성공할 것이다. 

단어 사전 공격이나 무차별 대입 공격에 대해 방어할 방법은 없다. 이 방법들이 비 효율적이긴 하지만 예방할 방법이 없다. 만약 당신의 비밀번호 해싱 시스템이 확실히 보안되어 있다면 해시를 해킹할 수 있는 방법은 단어 사전 공격이나 무차별 대입 공격을 사용하는 수 밖에 없다.

Lookup tables


룩업 테이블은 매우 빠르게 동일한 유형의 해시를 해킹하는데 매우 효과적인 방법이다. 일반적으로 비밀번호 사전에서 해쉬값들을 미리 추출해 놓고 비밀번호를 여기에서 검색 한다. 룩업 테이블의 장점은 초당 백개 정도의 비밀번호를 검색할 수 있고 해시 데이터가 수십억개가 넘더라도 사용할 수 있다.

역 룩업 테이블


먼저 공격자들은 추출한 사용자 정보를 가지고 동일한 비밀번호를 사용자끼리 그룹핑을 한다. 공격자들은 다양한 추측 비밀번호를 입력하여 검색하고 해당 추측 비밀번호와 일치하는 사용자 목록을 가지고 온다. 이 방법은 일반적으로 많은 사용자가 동일한 비밀번호를 사용하기 때문에 매우 효율적이다.

레인보우 테이블
레인보우 테이블은 시간과 메모리 사이의 선택 사항이다. 룩업 테이블과 비슷 하지만 해쉬를 해킹하는 속도 향샹을 위해 룩업 테이블보다 더 작게 구성되어 있다. 더 작기 때문에 같은 용량의 디스크에  많은 해쉬값들을 저장할 수 있어서 더 효율적으로 사용할 수 있게 한다. 레인보우 테이블은 md5 값이나 8자 까지 해킹 할 수 있다.

다음으로 룩업 테이블과 레인보우 테이블로 해쉬 해킹을 불가능하게 만들수 있는 소금치기 라고 불리우는 기술에 대해서 알아보자

Adding Salt(소금 치기)

룩업 테이블과 레인보우 테이블은 비밀번호가 해킹할 해쉬와 동일한 방법으로 해싱되어 있어야 해킹이 가능하다. 만약 두 사용자가 동일한 비밀번호를 사용한다면 이들은 동일한 해싱 비밀번호를 가지게 된다. 이는 각 해시들을 무작위 구성되게 함으로써 예방할 수 있고, 만약 같은 비빌번호가 두번 해싱된다면 이 값은 서로 동일하지 않게 된다.

소금이라고 불리는 무작위 문자열을 비밀번호를 해싱하기 전에 붙여서 해쉬 값을 무작위로 만들 수 있다. 상단의 예제를 보면 같은 비밀번호인데도 결과로 생성된 해시값은 매번 다른것을 볼 수 있다. 인증을 진행할 때 비밀번호가 동일한지 확인을 하기 위해서는 소금값이 필요 한데 이 값은 보통 사용자 계정을 저장하는 데이터베이스에 비밀번호 해쉬값과 같이 있거나 해쉬값으로 변환 되어 저장하고 있다. 

소금 값은 비밀로 관리 하지 않아도 된다. 그냥 룩업 테이블과 역 룩업 테이블, 레인보우 테이블이 효과를 볼 수 없게 해시를 무작위로 사용하면 된다. 공격자는 소금 값이 뭐가 될지 알 수 없고 룩업 테이블과 레인보우 테이블 값을 미리 생성해 놓을 수가 없다. 만약 각각 사용자마다 다른 소금 값으로 해싱되어 있다면 역방향 룩업 테이블도 동작하지 않을 것이다.

다음 섹션에서는 소금 값에 대해서 일반적으로 잘못 구현된 상황에 대해서 알아 보도록 할 것이다.

잘못된 방법 : 짧은 소금 값 & 소금 값 재사용
소금값을 잘못 사용하는 가장 흔한 경우는 같은 소금값을 여러 해시에 사용하거나 너무 짧은 소금 값을 사용하는 것이다.

소금 값 재사용
가장 흔한 실수는 각 해쉬마다 같은 소금값을 사용하는 것이다. 어느 소금값은 프로그램내에 하드 코딩 되어 있거나 랜덤으로 한번 생성해서 사용하기도 한다. 이것은 효과가 없는데 만약 두 사용자가 같은 비밀번호를 사용할 경우 그들은 여전히 같은 해쉬값을 가지게 된다. 해커들은 여전히 역 리버스 룩업 테이블을 사용해 단어 사전 공격을 시도 할 수 있다. 그들은 비밀번호를 해싱하기 전에 사용될만한 소금 값들을 추가한 후 해싱을 한다. 만약 소금 값이 유명한 제품의 이름으로 되어 있다면 룩업 테이블과 레인보우 테이블은 이 소금값을 사용해 만들어서 쉽게 비밀번호를 얻어 낼 수 있다.

사용자 계정을 새로 만들거나 비밀번호를 변경할 때는 반드시 무작위로 생성된 소금값을 사용해야 된다.

짧은 소금 값
만약 소금 값이 너무 짧으면 해커는 가능한 소금값들을 활용해서 룩업 테이블을 만들 수 있다. 예를 들어 만약 소금값이 아스키 문자 3자로 되어 있다면 소금 값으로95*95*95=857,375개의 값이 사용 가능하다. 이 값이 많아 보일 수도 있지만 각각의 룩업 테이블들이 1메가 정도의 평범한 비밀번호로 구성되어 있는 경우 837G 만으로 전체 룩업 테이블을 구성할 수 있고 요즘 1000GB 하드 디스크는 채 100달러도 하지 않는다.

같은 이유로 사용자 이름 역시 소금 값으로 사용할 수 없다. 혼자 독립적으로 운영되는 서비스의 경우는 사용자 이름이 유니크할 수 있지만 다른 서비스에서도 똑같이 자주 사용된다. 해커들은 평범한 사용자 이름을 사용해 룩업 테이블을 구성하고 이를 사용해서 사용자이름이 소금값으로 사용된 해시값을 생성한다.

해커가 사용가능한 소금값을 가지고 룩업 테이블을 생성하는 것을 불가능 하게 할려면 소금 값은 반드시 길게 만들어야 된다. 좋은 방법은 해쉬 함수를 사용해서 생성된 길이와 동일하게 만드는 것이다. 예들 들어 해시 값이 SHA256 알고리즘을 사용해서 256 비트(32 바이트)로  생성 한다면 소금 값 역시 랜덤으로 생성된 32바이트로 만들면 된다.

잘못된 방법 : 이중 해싱 및 엉뚱한 해쉬 함수
이 섹션에서는 엉뚱한 해시 알고리즘 조합 같은 잘못된 해싱 방법에 대해서 살펴본다. 다른 해싱 함수들을 조합해서 사용할 수 있으니 그 결과가 더 안전할 것이라고 생각하기 쉽다. 실제로 이를 수행함으로써 아주 작은 이득이 있다. 하지만 이 방법은 상호 운영성에 대한 문제가 발생하고 가끔 해쉬 값을 덜 안전하게 만들기도 한다. 절대로 자신만의 암호화 방식을 만들지 말고 항상 고수들에 의해 생성된 표준을 사용하도록 해라. 여러개의 해싱 함수를 사용하면 해싱 작업을 수행하는 이 느려지고 그래서 해킹하는 것도 느릴것이라고 주장 하지만 해킹 시간을 느리게 하는 더 좋은 방법이 있고 나중에 보게 될 것이다.

여기 내가 웹 포럼에서 추천하고 있는걸 본 허접한 해싱 함수가 있다.
- md5(sha1(password))
- md5(md5(salt) + md5(password))
- sha1(sha1(password))
- sha1(str_rot13(password + salt))
- md5(sha1(md5(md5(password) + sha1(password)) + md5(password)))
이중에 아무것도 사용하지 말아라.

주의 : 이 부분에 대한 논란은 이미 검증된 것이다. 나는 이 허접한 해싱 함수들이 해커들이 어떤 해싱함수들을 사용했는지 알수 없고 엉뚱한 해시 함수들을 사용해서 레인보우 테이블을 구성하는 해커들은 적은 수이고 이 방법이 해싱함수를 수행하는데 시간이 더 오래 걸릴것이기 때문에  좋은 방법이고 주장하는 메일들을 여러통 받았다. 

해커들은 알고리즘에 대해 알지 못할 경우 해시에 대한 공격을 시도 하지 않는다. 하지만 케르크호프스의 원리(키를 제외한 시스템의 다른 모든 내용이 알려지더라도 암호쳬게는 안전해야 한다)에 따르면 해커들은 소스 코드에 접근할 수 있고(특별히 무료거나 오픈 소스 소프트웨어일 경우) 비밀번호-해시 방법을 사용한 시스템이 목표가 되고, 이 알고리즘을 리버스 엔지니어링하는것은 어렵지 않다. 병렬화하기가 매우 어렵게 디자인된 알고리즘을 사용하는것이 좋다. 그리고 레인보우 테이블 문제를 해결하기위한 정확한 방법은 소금 치기 기법을 사용하는 것이다.

HMAC같이 표준화된 이상한 해시 함수를 사용한다면 괜찮다. 하지만 해시 작업을 느리게 하는것이 이유라면 key stretching 에 대한 색션을 먼저 읽어 보기 바란다.

실수로 안전하지 않은 해싱 함수를 만드는 경우와 상호 운영성에 문제가 있는 엉뚱한 해싱함수를 사용해서 얻는 작은 이득에 대해 비교해보자. 확실하게 잘 테스트된 표준 방식을 사용하는것이 가장 좋은 방법이다.

해시의 충돌

해시 함수는 고정길이의 문자열로 이루어 지도록 되어 있으므로 같은 입력에 대해서는 동일한 해쉬를 가지고 가지게 된다. 암호화 해시 함수는 이렇게 동일한 해쉬를 가지고 있는것을 찾기 어렵도록 설계 되었다. 암호학자들은 해쉬가 충돌하는 것을 찾아 낼 수 있고 최근에 MD5 해시 함수를 사용했을 때 해시 충돌을 활용한 공격이 발생하기도 했다.

해쉬 충돌은 취약한 해시 함수인 MD5를 사용할 경우에도 이를 찾아 내는데 많은 컴퓨터 리소스를 필요로 한다. 실제 환경에서는 거의 발생할 일이 없고 대부분 테스트를 하는 과정에서 우연히 발생한다. MD5와 소금값을 사용하여 해시를 하는경우 SHA256과 소금값을 사용하여 해쉬하는 것 만큼 안전하긴 하지만 가능한 SHA256, SHA512, RipeMD, WHIRLPOOL 같은 더 안전한 해시 함수를 사용하는것이 좋다.

올바른 방법 : 훌륭한 방법으로 해싱 하기

이 섹션에서는 암호 해싱에 대한 정확한 방법을 설명한다. 첫번째로 기본 해시에 대해서 알아보고 두번째로 이 기본 해시를 가지고 해킹을 어렵게 하는 방법에 대해서 알아본다

기본 : 소금값과 함께 해싱하기

이전 섹션에서 악의적인 목적을 가진 해커가 룩업 테이블과 레인보우 테이블을 사용해서 일반 해시를 해킹하는것을 살펴보았다. 이 문제를 해결하는 방안으로 소금값을 랜덤으로 생성하여 해싱할 때 같이 사용하는것을 배웠지만 소금값을 어떻게 생성하고 비밀번호에 이를 어떻게 적용할 것인가?

소금 값은 암호학적으로 안전한 난수 생성기에 의해 생성(Cryptographically Secure Pseudo-Random Number Generator, CSPRNG)되어야 한다. CSPRNG은 C언어의 rand() 함수처럼  일반 난수생성기와 매우 다르다. 이름을 통해 짐작하듯이 CSPRNG는 암호화를 사용하도록 설게되어 있고 이 것은 완벽히 예측 불가능 한것을 의미한다. 소금값은 예측가능한 것을 사용할수 없기 때문에 반드시 CSPRNG를 사용해야 된다. 아래 표에서는 유명한 프로그래밍 언어에서 제공하는 CSPRNG 목록이다.

PlatformCSPRNG
PHPmcrypt_create_iv, openssl_random_pseudo_bytes
Javajava.security.SecureRandom
Dot NET (C#, VB)System.Security.Cryptography.RNGCryptoServiceProvider
RubySecureRandom
Pythonos.urandom
PerlMath::Random::Secure
C/C++ (Windows API)CryptGenRandom
Any language on GNU/Linux or UnixRead from /dev/random or /dev/urandom

소금값은 사용자와 비밀번호 별로 유일한 값을 가져야 한다. 사용자 계정을 생성할때와 비밀번호를 변경할때마다 새로운 임의의 랜덤 소금값을 사용해서 해싱 해야 된다. 소금값은 절때 재사용 하지 말아야 되고 길게 만들어야 되기 때문에 다양한 값을 생성할 수 있다. 소금값은 해쉬 함수의 출력 값 만큼 길게 만들고 사용자 계정 테이블에 같이 저장되도록 한다.

비밀번호 저장하기
1. CSPRNG를 사용해서 임의의 소금값을 생성한다.
2. 소금값을 비밀번호 앞에 덧붙이고 SHA256 같은 표준 암호화 해시 함수를 사용해서 해시한다.
3. 소금값과 해시값을 사용자 계정 테이블에 저장한다.

비밀번호 유효성 검사
1. 사용자의 소금값과 비밀번호 해시값을 데이터베이스에서 찾는다.
2. 입력한 비밀번호에 소금값을 덧붙이고 비밀번호 해싱에 사용했던 동일한 해싱함수를 사용하여 해싱한다.
3. 입력한 비밀번호로 생성한 해싱값과 저장되어 있는 해싱값과 비교해서 일치하는지 확인하고 동일 하면 비밀번호가 정확한 비밀번호를 입력한것이고 아니면 잘못된 비밀번호를 입력한 것이다.

웹 애플리케이션에서는 항상 서버에서 해시를 해야 된다.

만약 웹 애플리케이션을 개발중이라면 해쉬를 어디서 할 것인지 고려해봐야된다. 만일 사용자의 브라우저에서 자바스크립트를 사용해 해쉬 되거나 이 해쉬된 값을 서버에 안전하게 전성되었을 경우 이를 사용해야 될까?

자바스크립트로 비밀번호를 해싱 했을때 조차도 서버에서 해시작업을 해야 된다. 사용자 브라우저에서만 해쉬를 하고 서버에서 해쉬를 하지 않을 경우를 고려해 보라. 사용자를 인증하기 위해 웹 사이트에서 생성된 해쉬를 만들고 이를 데이터베이스에 조회해서 동일한 값을 찾을 것이다. 사용자의 암호가 서버로 전송되지 않기 때문에 서버에서 해쉬작업을 하는것 보다 조금 더 안전한 것처럼 보이지만 그렇지 않다.

문제는 클라이언트 쪽에서 사용자의 비밀번호가 해쉬된다는 것이다. 모든 사용자들이 서버에 비밀번호를 확인해야 된다. 해커가 이 해쉬 값을 얻은 경우 이 값을 사용해서 사용자 인증을 진행할 수 있다. 만약 해커가 이 웹사이트의 비밀번호 해쉬가 담긴 데이터베이스를 해킹한다면 암호를 추측해서 사용할 필요도 없이 바로 모든 사용자의 계정에 접속 할 수 있다.

브라우저에서 해시를 할수 없다는 뜻은 아니지만 만약 브라우저 해쉬를 사용해야 된다면 서버 해쉬 작업도 반드시 진행해야 된다. 브라우저에서 해싱을 하는것은 좋은 아이디어이긴 하지만 구현을 위해 아래 사항을 고려해야 한다.
- 클라이언트 암호 해시는 HTTPS(SSL/TLS)를 대신할 수는 없다. 브라우저와 웹서버가 보안 통신으로 연결되어 있지 않다면 있다면 중간에서 이를 가로체 사용자의 비밀번호를 알아낼 수 있다.
- 몇몇 웹 브라우저들은 자바스크립트를 지원하지 않고 몇몇 사용자들은 브라우저에서 자바스크립트 기능을 꺼놓기도 한다. 최대한 호환성을 지원하기 위해 브라우저가 자바스크립트를 지원하는지 잘 감시 해야 되고, 클라이언트 해쉬가 동작하지 않을 경우 서버에서 해시 작업이 수행될 수 있도록 해야 된다.
- 클라이언트 쪽에서도 소금 값을 사용할수도 있다. 클라이언트 스크립트에서 서버를 통해 사용자의 소금값을 확인하는 것아 해결책 이긴 하지만 이를 사용해서는 안된다. 왜냐하면 악의적인 사용자들이 중간에서 이를 가로채 사용할 수 있기 때문이다. 
서버에서도 해싱 및 소금값을 사용한다면 사용자 이름(또는 이메일)을 사이트 정보(도메인 이름)과 함께 클라이언트 소금값으로 사용하는것은 괜찮다.

느린 해시 함수를 사용해 비밀번호를 해킹하는것을 어렵게 만들기
소금 값은 룩업 테이블이나 레인보우 테이블 처럼 해시 되어 있는 값에서 비밀번호를 찾는 방식이 통하지 않게 해준다. 하지만 단어 사전 공격이나 무차별 입력 공격같은 것은 미리 방어 하는게 불가능하다. 높은 성능의 그래픽카드(GPUs)나 직접 제작된 특별한 장비들은 1초에 수십억개의 해시를 만드는게 가능하고 이러한 공격은 여전히 유효하다. 이러한 공격들을 무용하게 만들려면 key stretching 이란 기술에 대해 알고 있어야 한다.

고성능의 GPU와 커스텀 장비를 사용한 단어 사전 공격와 무차별 대입 공격을 방어하는 방법으로 해시 함수를 느리게 하는 방법이 있다. 이 방법을 완성 하기 위해서는 위 공격들에 대해서는 해시 함수가 느리게 동작하도록 하고 실제 사용자에게는 불편함이 없는 속도로 제공해야 된다. 

Key stretching은 CPU를 많이 사용하는 특별한 해시 함수를 사용해서 구현된다. 별도로 해시 함수를 구현 할려고 하지 말고 표준 알고리즘인 PBKDF2 나 bcrypt를 사용하라. 

이 알고리즘들은 보안 요소 나 반복 횟수를 인자로 받는데 이 값들은 해쉬 함수를 어느 정도 느리게 할것인지 결정하는데 사용된다. 데스크탑 소프트웨어나 스마트폰 앱에서 어떤 변수를 사용할지에 대한 결정은 작은 벤치마킹을 한번 수행해 보는 것이다. 이 방법 대로면 사용자는 사용환경 변화를 느낄수 없고 프로그램은 가능한한 안전할 것이다.

웹 애플리케이션에서 key Stretching을 사용한다면 큰 볼륨의 인증 요청을 처리하기 위해서 컴퓨터 자원이 많이 필요할 수 있고 이 key stretching은 웹사이트를 쉽게 DoS 공격 할 수 있기 때문에 주의해야 하지만 낮은 반복 횟수를 사용한다면 key stretching을 사용하는것을 추천한다. 서버 자원을 얼마나 사용할 수 있는지 및 최대 인증 요청 횟수에  따라 반복 횟수를 결정할 수 있다. 로그인 할때마다 CAPTCHA(랜덤 문자 입력 방식)을 사용해서 Dos 위협을 해결할 수 있다. 시스템을 설계할때 반복횟수가 증가 또는 감소 될 수 잇도록 시스템을 설계한다. 

시스템 부하에 대해 걱정이 된지만 key stretching을 사용하고 싶다면 사용자의 브라우저에서 자바스크립트를 통한 key stretching을 사용하는 것을 고려할 수 도 있다. 자바스크립트 표준 암호화 라이브러리는 PBKDF2에 포함되어 있다. 반복 횟수는 모바일 장비같은 느린 환경에서도 사용할 수 있도록 충분이 낮게 설정해야 되고 사용자의 브라우저가 자바스크립트를 지원하지 않을 경우 서버에서 처리 할 수 있도록 해준다. 사용자측에서 하는 key stretchin은 서버측의 해싱을 삭제할 필요가 없다. 클라이언트가 비밀번호를 해시하는 것과 동일하게 생성된 해시를 서버에서도 해시 해야 된다.

해킹이 불가능한 해시 : 키 해시 및 하드웨어 비밀번호 해싱

비밀 키를 해시에 추가 하고 이를 알고 있는 사람만이 비밀번호가 유효한지 확인이 가능하다. 이것은 두가지 방법으로 수행될수 있는데, AES같은 암호화 모듈을 사용하여 암호화 하거나 비밀 키를 HMAC같은 키를 사용한 해싱 알고리즘에 포함하여 해시에 사용할 수 있다.

이 방법은 생각보다 쉽지 않다. 키는 해커로 부터 안전하게 보호되어야 한다. 만약 해커가 시스템에 사용할 수 있는 모든 권한을 얻어 냈을때 저장 위치에 상관 없이 키를 갈취 할 수 있다. 키는 반드시 물리적으로 분리되고 인증 시스템을 가지고 있는 외부 시스템에 저장 되거나YubiHSM같은 특별한 물리장비에 저장 되어야 한다. 
십만명 이상의 사용자가 있을 경우에만 이렇게 하는 것을 추천한다. 

만약 물리서버를 분리할수 없거나 특수 장비를 사용할 수 없는 경우에는 일반 웹 서버에서도 키 해시에 대한 이점을 사용할 수 있다. 
대부분의 데이터베이스는 SQL Injection 공격에 취약한 부분이 있는데 해커들이 이를 사용해서 local 파일 시스템에 접근하지 못하도록 한다. 만약 랜덤 키를 생성한 후 소금치는 해싱 작업을 한 후 웹에서 접근할 수 없는 파일에 저장 한다면 데이터베이스가 SQL Injection 공격하는 경우에도 괜찮다. 키 값은 소스 코드에 하드코딩 하지 말고 애플리케이션을 설치할 때 무작위로 생성 되도록 한다. 이 방법은 장비를 분리하는 것만큼 안전하지는 않지만 아무것도 하지 않는것보다는 좋다.

키 해시 방법을 사용할때 소금 값을 지울 필요는 없다. 영리한 해커들은 결국엔 키 값을 찾아 낼 것이기 때문에 해쉬 값들은 소금 값과 key stretching에 의해 보호 되고 있어야 한다.


다른 보안 조치

비밀번호 해싱은 비밀번호가 보안을 위반할때도 보호 되어야 한다. 전체 응용 시스템에 대한 보안작업을 해야 되는것은 아니지만 비밀번호 해시를 해킹 당하는 것은 가장 먼저 예방해야된다.

숙련된 개발자가 보안 관련 애플리케이션을 개발할 때도 보안사항에 대해서는 교육을 받아야 한다. 웹 애플리케이션 취약점에 대한 공부자료로는 The Open Web Application Security Project(OWASP)가 있다. 이 10개의 취약점 목록을 참고 하라. 이 리스트에 있는 모든 취약점에 대해 이해 하지 않는한 민감한 데이터를 다루는 웹 애플리케이션을 개발 할려고 하지 말아라. 모든 개발자가 보안 관련 교육을 보장 받는것은 전부 고용주의 책임이다. 

외부업체를 통한 취약점 검사를 받는것은 좋은 방법이다. 최고의 프로그래머 조차도 가끔 실수를 만들어 낼 수 있으므로 보안 전문가가 잠재적인 보안 이슈를 확인 해야 된다. 신뢰할 수 있는 기관이나 직원을 고용하여 정기적으로 코드를 리뷰 하도록 해라. 보안 검토 프로세스는 애플리케이션 개발을 시작할때 부터 계속 진행되어야 한다.

만약 웹사이트 취약점 공격에 대한것이 발견 된다면 전체 서버를 모니터링 하는것이 중요하다. 서버에 대한 공격을 감지하고 보안 침해에 대응할 직원을 최소 한명이상 고용하는 것을 추천한다. 만약 해킹에 대해 감지 하지 못한다면 해커는 악성코드를 사용자에게 감염 시킬 수 있기 때문에 취약점에 대해서 감시하고 신속하게 대응하는것은 매우 중요하다.


자주 묻는 질문
무슨 알고리즘을 사용해야 되나?
사용 해도 되는 것
- The PHP source code, Java source code, C# source code or the Ruby source code at the bottom of this page.
- OpenWall's Portable PHP password hashing framework
- Any modern well-tested cryptographic hash algorithm, such as SHA256, SHA512, RipeMD, WHIRLPOOL, SHA3, etc.
- Well-designed key stretching algorithms such as PBKDF2, bcrypt, and scrypt.
- Secure versions of crypt ($2y$, $5$, $6$)
사용하지 말아야 되는것
- Outdated hash functions like MD5 or SHA1.
- Insecure versions of crypt ($1$, $2$, $2x$, $3$).
- Any algorithm that you designed yourself. Only use technology that is in the public domain and has been well-tested by experienced cryptographers

MD5 및 SHA1에 대한 암호 공격이 없다고 하더라도 이것들은 해킹 하기가 쉽고 오래되고 비밀번호를 저장하는데 사용되지 않는 해쉬 함수이기 때문에 이것을 사용하는 것을 추천 하지 않는다. 이 규칙에 대한 예외로 PBKDF2가 있는데 내부 해시 함수를 사용하여 구현한 SHA1을 사용할 경우다. 


사용자들이 비밀번호를 잃어 버렸을때 언제 비밀번호를 초기화 할 수 있게 해야 하나?

내 개인적인 의견은 요즘 사용되는 모든 비밀번호 초기화 방법은 안전하지 않다는 것이다. 만약 암호화된 서비스를 위해 높은 수준의 보안을 적용해야 한다면 사용자가 비밀번호를 리셋할 수 없게 해라.

대다수 웹사이트들이 사용자가 비밀번호를 잃어 버렸을때 이메일 인증을 사용한다. 이 작업을 하기 위해 무작위로 생성된 일회성 토큰이 생성되고 비밀번호를 리셋하는 url에 토큰을 포함하여 사용자에게 비밀번호 초기화 이메일을 보낸다. 인증 토큰이 포함된 비밀번호 초기화 링크를 클릭 하면 새로운 패스워드 입력 화면을 표시한다. 이 일회성 토큰은 사용자 별로 별도로 생성되기 때문에 해커들이 이를 다른 사용자의 비밀번호를 리셋하는데 사용할 수 없다.

토큰은 반드시 사용하거나 생성된지 15분이 지나면 반드시 만료 처리 되도록 해야 된다. 사용자가 암호를 다시 기억해내서 로그인 하거나 다른 리셋 토큰을 요청한 경우에도 이미 생성된 것은 만료 처리를 해야 된다. 만약 토큰 만료 처리가 안된다면 사용자의 비밀번호를 해킹하는데 지속적으로 사용될 수 있다. 이메일은 일반 텍스트 프로토콜이고 웹상에는 많은 악의적인 코드들이 존재한다. 이를 통해 이메일이 노출 될 수 있으므로 토큰 만료 기능을 꼭 추가 해야 된다.

해커들이 토큰을 조작할 수 있으므로 사용자 계정 정보나 만료 시간 정보 같은것은 포함되지 않도록 하다. 토큰은 반드시 예측 불가능한 이진 BLOB 형태로 데이터베이스에 기록되도록 해야 된다.

절대 사용자에게 신규 비밀번호를 메일로 보내지 말아라. 
비밀번호를 재설정할때 새로운 소금값을 사용하고 이전에 사용했던 값은 재사용하지 말라.

만약 사용자 계정 데이터베이스가 해킹되었을땐 어떻게 해야 되나?
가장 먼저 처리해야 될 일은 시스템이 어떻게 해킹 되었고 해커가 사용한 취약점을 어떻게 패치해야될지 정하는 것이다. 만약 이런 해킹에 대한 경험이 없다는 외부 보안 담당자에게 의뢰 하는것을 강력하게 추천한다.

해킹 당한 것에 대해 감추고 아무도 이를 알아내지 않았으면 할수도 있다. 하지만 이를 감추려고 한다면 상황은 더 악화된다. 왜냐하면 사용자의 비밀번호와 개인 정보가 노출되고 있음을 사용자들에게 알리지 않음으로써 더 큰 위험요소를 만들어 내고 있을수 있기 때문이다. 가능한 빨리 사용자들에게 이 내용을 알려야된다(이 해킹 내용에 대해 정확이 인지하고 있지 않더라도). 웹 사이트 메인페이지에 이를 공지하고 상세 정보를 확인할 수 있는 링크를 걸어 놓고 모든 사용자들에게 이를 안내하는 메일을 보내도록 한다.

사용자들에게 비밀번호가 어떻게 안전하게 보관되고 있는지 설명해야되고(소금 값을 사용했기를 바라며) 비밀번호가 소금값으로 해시되어 있지만 악의적인 해커들은 단어 사전이나 무차별 공격으로 이를 해킹할 수 있다. 악성 해커들은 사용자들이 다른 웹사이트에 동일한 비멀번호를 사용했기를 기대하고 해킹한 비밀번호을 사용해서 다른 웹사이트에 로그인을 시도할 것이다. 이러한 위험성에 대해 사용자들에게 공지하고 비슷한 비밀번호를 사용하는 다른 웹사이트의 비밀번호를 변경하도록 제안한다. 사용자들이 시스템에 로그인할때 강제로 패스워드를 변경 하도록 하고 대부분의 사용자들이 이전 비밀번호를 빠르게 변경하기 위해서 이전 비밀번호와 동일하게 설정 할려고 하는데 이를 방지하는 작업도 해야 된다.

소금값과 함께 늦은 해쉬를 사용하더라도 해커들은 취약한 비밀번호들에 대해 매우 빠르게 해킹할 수 있다. 해커들이 이렇게 비밀번호를 찾아서 해킹할 가능성을 줄이기 위해서 비밀번호가 변경 되었을 때도 이를 인증하는 메일을 사용자에게 보내서 확인하도록 해야 된다. 

또한 사용자들에게 어떠한 개인정보가 저장되고 있는지 알려야 한다. 만약 신용카드 번호를 저장 하고 있다면 사용자들에게 신용카드를 재 발급 받도록 알려주고 이 카드 번호를 사용해 결제된 내용들에 대해 확인하도록 알려 줘야된다.

비밀번호 정책은 무엇이 되야 하나? 강력한 암호를 사용하도록 해야되나?
만약 서비스가 엄격한 보안 정책이 필요 하지 않다면 사용자들이 비밀번호를 설정하는데 제한을 둘 필요가 없다. 사용자들이 원하는 대로 비밀번호를 설정 할 수 있게 한다. 
만약 특별한 보안 정책이 필요 하다면 비밀번호는 최소 12자 이상을 사용하고 최소한 두 글자, 두 자리, 두 가지 특수 문자 이상을 사용하도록 한다.

사용자들에 매 6개월 이상으로 비밀번호를 강제로 변경하도록 하지 않는다. 비밀번호를 자주 바꾸도록 하면 사용자들이 이를 귀찮아해서 간단한 비밀번호를 사용할 가능성이 높아 진다. 

해커들이 데이터베이스에 접속 가능하면, 사용자의 비밀번호 해시를 그들이 생성한 해시로 바꾸고 로그인 할 수 있지 않나?
가능하다, 만약 데이터베이스에 접속할 수 있다면 해커들은 아마 서버에 있는 모든 것들에 접근 할 수 있을 것이고 따라서 그들이 필요 하지 않는한 별도로 사용자의 계정에 로그인할 필요는 없다. 암호 해시의 목적은 시스템 전체를 해킹하는것을 방어하는 것이 아니라 비밀번호 해킹이 발생하는 것을 막는 것이다.

데이터베이스의 계정을 사용자 계정을 생성할때 사용할 것과 로그인시 사용할 것을 분리해서 사용하면 로그인시 SQL Injection 공격을 사용해 비밀번호를 변경하는 것을 막을 수 있다.

Why do I have to use a special algorithm like HMAC? Why can't I just append the password to the secret key?

Hash functions like MD5, SHA1, and SHA2 use the Merkle–Damgård construction, which makes them vulnerable to what are known as length extension attacks. This means that given a hash H(X), an attacker can find the value of H(pad(X) + Y), for any other string Y, without knowing X. pad(X) is the padding function used by the hash.

This means that given a hash H(key + message), an attacker can compute H(pad(key + message) + extension), without knowing the key. If the hash was being used as a message authentication code, using the key to prevent an attacker from being able to modify the message and replace it with a different valid hash, the system has failed, since the attacker now has a valid hash of message + extension.

It is not clear how an attacker could use this attack to crack a password hash quicker. However, because of the attack, it is considered bad practice to use a plain hash function for keyed hashing. A clever cryptographer may one day come up with a clever way to use these attacks to make cracking faster, so use HMAC.


소금값을 암호 앞, 뒤 어드쪽에 붙여야 되나?
둘 중 아무거나 사용해도 상관 없다. 비밀번호 앞에 사용하는게 좀 더 일반적이긴 하다.

Why does the hashing code on this page compare the hashes in "length-constant" time?

Comparing the hashes in "length-constant" time ensures that an attacker cannot extract the hash of a password in an on-line system using a timing attack, then crack it off-line.

The standard way to check if two sequences of bytes (strings) are the same is to compare the first byte, then the second, then the third, and so on. As soon as you find a byte that isn't the same for both strings, you know they are different and can return a negative response immediately. If you make it through both strings without finding any bytes that differ, you know the strings are the same and can return a positive result. This means that comparing two strings can take a different amount of time depending on how much of the strings match.

For example, a standard comparison of the strings "xyzabc" and "abcxyz" would immediately see that the first character is different and wouldn't bother to check the rest of the string. On the other hand, when the strings "aaaaaaaaaaB" and "aaaaaaaaaaZ" are compared, the comparison algorithm scans through the block of "a" before it determins the strings are unequal.

Suppose an attacker wants to break into an on-line system that rate limits authentication attempts to one attempt per second. Also suppose the attacker knows all of the parameters to the password hash (salt, hash type, etc), except for the hash and (obviously) the password. If the attacker can get a precisise measurement of how long it takes the on-line system to compare the hash of the real password with the hash of a password the attacker provides, he can use the timing attack to extract part of the hash and crack it using an offline attack, bypassing the system's rate limiting.

First, the attacker finds 256 strings whose hashes begin with every possible byte. He sends each string to the on-line system, recording the amount of time it takes the system to respond. The string that takes the longest will be the one whose hash's first byte matches the real hash's first byte. The attacker now knows the first byte, and can continue the attack in a similar manner on the second byte, then the third, and so on. Once the attacker knows enough of the hash, he can use his own hardware to crack it, without being rate limited by the system.

It might seem like it would be impossible to run a timing attack over a network. However, it has been done, and has been shown to be practical. That's why the code on this page compares strings in a way that takes the same amount of time no matter how much of the strings match.



왜 해싱을 지루하게 생각하나?
사용자가 비밀번호를 입력하고 사이트에 로그인할때 이들은 이것이 보안 처리 되어 있을것으로 믿는다. 만약 데이터베이스가 해킹되고 사용자들의 비밀번호가 보호되지 않고 있다면 악성 해커들은 이 정보를 다른 웹사이트와 시스템에 사용할 것이다.(대부분의 사람들이 동일한 비밀번호를 사용한다) 이 문제는 단순히 해당 사이트만의 문제가 아니고 사용자들에 대한 문제이다. 시스템 담당자는 사용자들의 정보를 안전하게 관리해야될 책임이 있다.