[ 프로그래머스 ] [1차] 뉴스 클러스터링
문제
https://school.programmers.co.kr/learn/courses/30/lessons/17677
풀이
집합의 유사도를 검사하는 자카드 유사도를 구현하는 문제로, 두 문자열의 대소문자를 일치시키고, 각각 비교한다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
#include <string>
#include <unordered_map>
using namespace std;
int solution(string str1, string str2)
{
int answer = 0;
for (int i = 0; i < str1.size(); i++)
{
str1[i] = toupper(str1[i]);
}
for (int i = 0; i < str2.size(); i++)
{
str2[i] = toupper(str2[i]);
}
unordered_map<string, int> m_str1, m_str2;
string s_sum, s_first, s_second;
int str_cnt = 0;
for (int i = 0; i < str1.size() - 1; i++)
{
s_first = str1[i];
s_second = str1[i + 1];
s_sum = s_first + s_second;
if (str1[i] >= 'A' && str1[i] <= 'Z' && str1[i + 1] >= 'A' && str1[i + 1] <= 'Z')
{
if (m_str1.find(s_sum) != m_str1.end())
{
m_str1.at(s_sum)++;
}
else
{
m_str1.insert({ s_sum, 1 });
}
}
}
for (int i = 0; i < str2.size() - 1; i++)
{
s_first = str2[i];
s_second = str2[i + 1];
s_sum = s_first + s_second;
if (str2[i] >= 'A' && str2[i] <= 'Z' && str2[i + 1] >= 'A' && str2[i + 1] <= 'Z')
{
if (m_str2.find(s_sum) != m_str2.end())
{
m_str2.at(s_sum)++;
}
else
{
m_str2.insert({ s_sum, 1 });
}
}
}
int intersect = 0;
int sum = 0;
for (auto iter = m_str1.begin(); iter != m_str1.end(); iter++)
{
auto find_iter = m_str2.find(iter->first);
if (find_iter != m_str2.end())
{
intersect += min(iter->second, find_iter->second);
sum += max(iter->second, find_iter->second);
}
else
{
sum += iter->second;
}
}
for (auto iter = m_str2.begin(); iter != m_str2.end(); iter++)
{
auto find_iter = m_str1.find(iter->first);
if (find_iter == m_str1.end())
{
sum += iter->second;
}
}
auto jaccard = 0.0;
if (sum == 0)
{
answer = 65536;
}
else
{
answer = int (float(intersect) / float(sum) * 65536);
}
return answer;
}
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.