사실 어떤게 맞다라는 정석은 없는 겁니다만 항상 사용자와 상호작용을 해야만 하는 UI를 이야기 할 때, 항상 함께 이야기하는게 UX죠. 사용자 경험. 아마 위 개발하신 UI를 다른 분들이 써보셨다면 그 유용성에 대해서 이해 하시겠지만 처음 보는 입장에서는 기존 윈도우 프로그램의 UI/UX를 벗어나는 형태이기 때문에 묘한 불편함이 있는게 아닐까 싶습니다. 그리고 강렬한 색의 대비(회색-검정색)가 윈도우 고대비 설정을 떠올리게 하는 군요 ㅎ
만약 동영상의 각 프레임 별로 차이에 따라 구분해도 되는 수준이라면 단순 히스토그램을 통해 샷을 구분하는 방법으로 Open-CV를 이용하시면 됩니다.
만약 프레임 내에 특정 오브젝트을 찾으려 하신다면 찾으려는 원본 이미지와 대조하여 오브젝트를 인식(recognition)하고 인식된 오브젝트를 추적(tracking)하는 기술이 필요합니다. 이정도까지도 open-cv를 통해 일부 구현이 가능합니다. suff와 ransac과 같은 알고리즘을 함께 이용하면요.
만약 프레임 내에 특정 클래스을 찾으려 하신다면 찾으려는 클래스에 해당하는 다양한 원본이미지와 대조하거나 혹은 딥러닝을 통해 오브젝트를 인식 및 추적하는 기술이 필요합니다. 여기 부터는 최근 트렌드인 딥러닝을 이용하셔야 합니다. CNN 계열 들이죠.