r 클러스터링 예제

클러스터링은 자율 학습 기술입니다. 동일한 클러스터의 개체가 다른 클러스터의 개체보다 서로 더 유사한 방식으로 개체 집합을 그룹화하는 작업입니다. 유사성은 두 데이터 개체 간의 관계의 강도를 반영하는 양입니다. 클러스터링은 주로 예비 데이터 마이닝에 사용됩니다. 기계 학습, 패턴 인식, 이미지 분석, 정보 검색, 생체 정보학, 데이터 압축 및 컴퓨터 그래픽과 같은 많은 분야에서 사용됩니다. 클러스터링 분석은 구현하기가 그리 어렵지 않으며 비즈니스에 대해서도 실행 가능할 뿐만 아니라 의미가 있습니다. 클러스터링 알고리즘은 클러스터 또는 그룹을 형성하는 방법에 따라 클러스터 모델을 기반으로 분류할 수 있습니다. 이 자습서에서는 눈에 띄는 클러스터링 알고리즘 중 일부만 강조 표시됩니다. # 워드 계층 적 클러스터링 d <- dist (mydata, 방법 = "유클리드") # 거리 매트릭스 적합 <- hclust (d, 방법 = "워드") # 디스플레이 dendogram 그룹 <- cutree (적합, k = 5) # 5 클러스터 주위에 빨간색 테두리와 함께 덴도그램을 잘라 rect.hclust (적합, k = 5, 테두리 = "빨간색") [1] k-means의 과제 중 하나는 시작할 위치를 결정하는 것입니다. 예를 들어 임의의 값 하위 집합을 선택하고 평균을 취하는 등 이 문제를 단독으로 해결하기 위한 여러 가지 알고리즘이 있습니다. k-means를 계산하는 컴퓨터 프로그램은 이 초기화를 수행할 수 있어야 합니다. 클러스터링의 개념을 이해하는 예제를 만들어 보겠습니다. 단순화를 위해 두 가지 차원에서 작업합니다.

고객 및 고객 의 총 지출에 대한 데이터가 있습니다. 광고를 개선하기 위해 마케팅 팀은 고객에게 더 많은 타겟 이메일을 보내려고 합니다. 이제 데이터를 교육 및 테스트 집합으로 나눌 수 있는 좋은 시기가 될 것입니다. 이것은 모든 데이터 과학 프로젝트에서 중요한 단계이며, 학습 세트에서 모델을 학습하고, 필요한 매개 변수의 값을 결정하고, 최종적으로 테스트 세트에서 모델을 테스트하기 위해 수행됩니다. 예를 들어 클러스터링 알고리즘으로 작업할 때 이 분할은 k-평균 클러스터링의 클러스터 수인 k와 같은 매개 변수를 식별할 수 있도록 수행됩니다. 그러나,이 사례 연구의 경우, 당신은 이미 5 입니다 예상 클러스터의 수를 알고 – 뉴욕시의 자치구의 수. 따라서, 당신은 전통적인 방식으로 작동하지 않고 오히려, k-평균 클러스터링에 대해 학습에 대해 주로 유지한다. 여기서는 각 알고리즘 유형의 예를 자세히 알아보고 실제로 살펴보겠습니다. 왼쪽의 값은 원래 데이터 세트의 행 번호를 참조합니다(아래쪽의 값은 거리 측정을 참조함[3]).